728x90
반응형

ᐧ༚̮ᐧ Data Science | AI 61

미 증시를 흔든 중국 AI 딥시크 DeepSeek란?

📉  엔비디아 주가 폭락27일 엔비디아 주가가 17% 하락하며 약 5900억 달러의 시장 가치를 잃었다. 이는 미국 증시 역사상 최대 규모의 하루 손실 기록이라고 한다. 이 하락은 중국 AI 스타트업 딥시크(DeepSeek)가 낮은 비용으로 경쟁력 있는 AI 모델을 제공한다는 우려에서 비롯되었다고 한다.     🐳 딥시크 DeepSeek란?     딥시크(DeepSeek)는 2023년, 중국 퀀트 헤지펀드 하이플라이어(High-Flyer)의 CEO 리앙 원펑(Liang Wenfeng)에 의해 설립된 AI 스타트업이다. 딥시크는 오픈 소스 AI 모델을 개발하는 회사로, 소프트웨어의 소스 코드를 공개하여 누구나 검토하고 수정할 수 있는 환경을 제공한다.딥시크의 모바일 앱은 2023년 초 출시 직후 미국을..

SQL 독학 #2. JOIN

SQL 독학 시리즈 두 번째 글! 이번 글은 SQLZoo 튜토리얼 #6,7, SQLBolt #6,7 정리한 내용이다.내 독학 계획 및 SQL 공부 사이트 추천은 아래 글에서 ↙↙  SQL 독학 시작! 나만의 커리큘럼, 연습 문제 사이트 추천현재 일에서는 SQL을 사용하지 않지만, 대부분의 데이터 과학 관련 직무에서 SQL은 필수로 요구되는 기술이라는 것을 알 수 있다.올해 말이나 내년에는 이직을 준비해야 하기 때문에, 새해 결심으benn.tistory.com  데이터베이스 정규화 (Normalization):정규화는 데이터베이스 설계 과정에서 중복 데이터를 제거하고 데이터의 일관성과 독립성을 유지하기 위해 데이터를 여러 테이블로 분리하는 작업입니다.아래 예를 들어, 직원 정보와 부서 정보를 하나의 테이블..

SQL 독학 #1. 기본 of 기본 SELECT + 조건

아래 독학 계획 블로그 포스트에서 소개한 웹사이트들 중에서, 먼저 튜토리얼과 문제 풀이가 결합된 사이트를 활용해 기초를 다진 후, 이후에는 코딩테스트 / 문제 풀이 위주의 웹사이트로 옮겨서 공부를 할 계획이다. 나의 계획:튜토리얼 (SQLZoo, SQLBolt, W3Resources, DataLemur - Tutorial) → 연습문제 사이트 (Leetcode, HackerRank, StrataScratch, DataLemur - problems)  SQL 독학 시작! 나만의 커리큘럼, 연습 문제 사이트 추천현재 일에서는 SQL을 사용하지 않지만, 대부분의 데이터 과학 관련 직무에서 SQL은 필수로 요구되는 기술이라는 것을 알 수 있다.올해 말이나 내년에는 이직을 준비해야 하기 때문에, 새해 결심으ben..

SQL 독학 시작! 나만의 커리큘럼, 연습 문제 사이트 추천

현재 일에서는 SQL을 사용하지 않지만, 대부분의 데이터 과학 관련 직무에서 SQL은 필수로 요구되는 기술이라는 것을 알 수 있다.올해 말이나 내년에는 이직을 준비해야 하기 때문에, 새해 결심으로 SQL 공부를 시작하기로 했다.사실 작년부터 해야겠다는 생각은 했지만, 올해는 정말로 실천에 옮겨야한다! 계획매일 1~2개의 SQL 문제를 풀어 일주일에 최소 5개의 문제를 완성하기.포트폴리오용 SQL 프로젝트를 하나 완성하기.블로그 포스팅을 통해 학습한 내용을 정리하기.대충 타임라인: SQL 쿼리문 공부 → SQL 문제 풀기 → SQL 큰 프로젝트 하나 완성 아직 포트폴리오용 프로젝트는 어떤 걸 할지 감이 안 잡히지만 데이터 분석/모델링, 데이터 시각화, 데이터 파이프라인을 한꺼번에 보여줄 수 있는 대시보드 ..

데이터 과학자를 위한 수학 유튜브 채널 추천!

데이터 과학자로서 선형대수, 미적분, 통계학 같은 수학 개념은 필수이다. 머신러닝과 딥러닝 모델을 제대로 이해하려면 수학 공부가 반드시 필요하다. 그런데 글로만 배우다 보면 개념이 명확하게 와닿지 않을 때가 많다. 그럴 때마다 찾게 되는 곳이 바로 유튜브이다. 글로만 봐서는 이해가 잘 안 되던 개념도, 다른 시각적 표현이나 설명 방식으로 접하면 훨씬 더 쉽게 이해될 때가 많기 때문이다. 물론 유튜브 영상만으로 완벽하게 공부하기는 어렵다. 하지만 영상을 통해 전체적인 개념을 먼저 이해하고, 이후에 더 깊이 있는 공부를 이어가는 방식으로 학습하는 데 큰 도움이 된다. 그래서 오늘은 내가 정말 많이 참고해 온 유튜브 채널 두 개를 추천하려고 한다. 이미 많은 분들이 알고 계실지도 모르지만, 혹시 모르는 분들을..

Git 서브모듈 (submodule) 사용하기

서브모듈 (submodule)Git 서브모듈은 하나의 Git 저장소 안에 다른 Git 저장소를 포함하고 관리할 수 있도록 해주는 기능이다. 주로 독립적으로 관리되는 코드를 포함하거나, 여러 프로젝트에서 공통적으로 사용하는 구성 요소를 공유해야 할 때 사용된다.서브모듈은 별도의 Git 저장소로 관리되며, 상위 저장소와 독립적으로 커밋 및 브랜치를 유지합니다. 즉, 서브모듈의 변경 사항은 상위 저장소의 변경 이력(히스토리)에 직접 영향을 미치지 않는다. 🔖 저장소 Repository: 프로젝트 파일과 변경 이력을 관리하는 Git의 기본 단위. 로컬(내 컴퓨터)이나 원격(GitHub 등)에 저장될 수 있다.🔖 모듈 Module: 특정 기능이나 역할을 수행하는 프로젝트의 논리적 구성 요소   나 같은 경우,..

[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

코헨의 카파(Cohen's kappa, κ) 점수는 두 관찰자가 어떤 항목을 분류할 때 얼마나 일치하는지, 그리고 그 일치도가 우연 때문이 아닌지를 평가하는 지표이다. 예를 들어, 두 사람이나 딥러닝 모델이 소셜 미디어 게시물을 검토하고 '적절함' 또는 '부적절함'으로 분류한다고 가정해 봤을 때, 두 평가자(또는 모델)가 얼마나 일치했는지를 확인하려면 코헨의 카파 점수를 계산할 수 있다. 공식:   p_o​: 관찰된 일치 비율, 즉 평가자들이 실제로 일치한 비율을 의미p_e: 우연히 일치할 가능성을 나타내는 기대 일치 비율 값의 해석:κ=1: 완전한 일치.κ=0: 우연과 동일한 수준의 일치.κ0: 우연보다 낮은 수준의 일치.보통 다음과 같이 해석한다:0.81–1.00: 거의 완벽한 일치.0.61–0.80..

[파이썬 pandas] 데이터 프레임 열 데이터 타입 확인 및 변경하기

판다스에서 데이터를 다룰 때, 데이터 유형을 이해하고 적절히 관리하는 것은 매우 중요합니다. 올바른 데이터 유형을 사용하면 계산 오류를 방지하고, 정확한 분석과 시각화를 가능하게 하며, 효율적인 데이터 처리를 할 수 있습니다. 이 글에 사용할 예제 데이터 프레임을 만들어 보겠습니다.이번 예제에서는 책 데이터베이스를 분석한다고 가정해 보겠습니다. 제목, 저자, 발행 연도, 가격, 재고 여부와 같은 정보를 포함한 데이터프레임을 사용해 데이터 유형을 확인하고 적절히 변경하는 방법을 배워보겠습니다. import pandas as pddata = { "Title": ["To Kill a Mockingbird", "1984", "The Great Gatsby", "The Catcher in the Rye"],..

[GenAI #1] 생성형 인공지능 (Generative AI)이란?

생성형 AI란?생성형 AI는 입력된 프롬프트(질문, 요청, 설명 등)에 따라 새로운 콘텐츠(텍스트, 이미지, 동영상, 음악, 코드 등)를 생성하는 인공지능 기술이다. 기존 데이터를 학습하여 그 구조와 패턴을 이해한 후, 이를 바탕으로 독창적이거나 창의적인 결과물을 만들어냅니다.  주요 특징학습 및 생성 능력대규모 데이터 세트를 기반으로 패턴과 관계를 학습.학습한 데이터를 토대로 새로운 텍스트, 이미지, 음성, 코드 등을 생성.활용 분야텍스트 생성: 예) ChatGPT를 사용해 글쓰기, 이메일 작성, 대화 생성.이미지 생성: 예) DALL·E와 MidJourney로 예술 작품, 제품 디자인.음악 및 음성: 음악 작곡, 음성 합성.코드 생성: GitHub Copilot으로 코드 작성 보조.비디오 제작: 간단..

데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까?

데이터 과학에 얼마나 많은 수학이 필요한가? 최근 몇 년간 데이터 과학은 주목받는 직업 중 하나로 자리 잡았다. 데이터 과학은 컴퓨터 과학, 통계학/수학, 그리고 도메인 지식을 결합한 다학문적(interdisciplinary) 분야로, 데이터를 분석하고 인사이트를 도출하며 의사결정을 지원하는 데 핵심적인 역할을 한다. 데이터 과학자의 역할은 회사와 상황에 따라 다양하지만, 이번 글에서는 데이터 과학에서 일반적으로 요구되는 수학적 지식의 수준을 정리해 보았다.  이 글은 호주에서 일하고 있는 사람이 작성한 만큼, 다른 상황에서는 다를 수 있습니다. 여러분의 경험과 의견이 다르다면 댓글로 자유롭게 공유해 주세요!  데이터 과학자에게 수학이 필요한 이유데이터 과학의 핵심은 데이터를 이해하고 이를 기반으로 정보..

728x90
반응형