728x90
반응형

데이터 과학 11

오블완을 마치며, 앞으로 내 블로그 방향성

21일간의 블로그 챌린지를 완성했다! 매일 글을 쓰는 챌린지는 시작 전부터 솔직히 걱정이 컸다. 과연 가능할까 싶었지만 어찌어찌해냈다. 특히 데이터 과학이라는 주제로 매일 글을 쓰는 건 쉽지 않은 도전이었다. 오블완의 여정오블완을 시작할 때 마음가짐은 미루고 미뤘던 논문 리뷰를 꾸준히 올려보려고 했다. 하지만 일을 하며 매일 논문을 읽고 정리한다는 게 생각보다 쉽지 않다는 것을 금방 깨달았다.   [논문 리뷰 | CV] Denoising Vision Transformers🔗 [arxiv]👨‍👩‍👧 Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglon..

[TIL #3 | 데이터 팟캐스트] 'Sky: 빛의 아이들' 게임 데이터 분석

이번 주 들은 팟캐스트: 의 "Lessons from eGamer Networks" https://podcasts.apple.com/gb/podcast/lessons-from-egamer-networks/id890348705?i=1000677335001 Lessons from eGamer NetworksPodcast Episode · Data Skeptic · 18/11/2024 · 38mpodcasts.apple.com  이 에피소드는 박사 과정 학생인 Alex Bisberg의 연구를 중심으로, 멀티플레이어 온라인 게임에서의 사회적 행동 분석 연구에 대해 이야기한다. 연구는 Sky: Children of the Light라는 게임을 기반으로, 게임 내에서 어떻게 플레이어들 간의 관대함(generosit..

데이터 과학자를 위한 수학 유튜브 채널 추천!

데이터 과학자로서 선형대수, 미적분, 통계학 같은 수학 개념은 필수이다. 머신러닝과 딥러닝 모델을 제대로 이해하려면 수학 공부가 반드시 필요하다. 그런데 글로만 배우다 보면 개념이 명확하게 와닿지 않을 때가 많다. 그럴 때마다 찾게 되는 곳이 바로 유튜브이다. 글로만 봐서는 이해가 잘 안 되던 개념도, 다른 시각적 표현이나 설명 방식으로 접하면 훨씬 더 쉽게 이해될 때가 많기 때문이다. 물론 유튜브 영상만으로 완벽하게 공부하기는 어렵다. 하지만 영상을 통해 전체적인 개념을 먼저 이해하고, 이후에 더 깊이 있는 공부를 이어가는 방식으로 학습하는 데 큰 도움이 된다. 그래서 오늘은 내가 정말 많이 참고해 온 유튜브 채널 두 개를 추천하려고 한다. 이미 많은 분들이 알고 계실지도 모르지만, 혹시 모르는 분들을..

[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

코헨의 카파(Cohen's kappa, κ) 점수는 두 관찰자가 어떤 항목을 분류할 때 얼마나 일치하는지, 그리고 그 일치도가 우연 때문이 아닌지를 평가하는 지표이다. 예를 들어, 두 사람이나 딥러닝 모델이 소셜 미디어 게시물을 검토하고 '적절함' 또는 '부적절함'으로 분류한다고 가정해 봤을 때, 두 평가자(또는 모델)가 얼마나 일치했는지를 확인하려면 코헨의 카파 점수를 계산할 수 있다. 공식:   p_o​: 관찰된 일치 비율, 즉 평가자들이 실제로 일치한 비율을 의미p_e: 우연히 일치할 가능성을 나타내는 기대 일치 비율 값의 해석:κ=1: 완전한 일치.κ=0: 우연과 동일한 수준의 일치.κ0: 우연보다 낮은 수준의 일치.보통 다음과 같이 해석한다:0.81–1.00: 거의 완벽한 일치.0.61–0.80..

[파이썬, conda] 가상 환경이란? (feat. 가상환경 생성, 활성화, 삭제)

가상 환경은 프로젝트별 라이브러리를 분리하여 서로 간의 충돌을 방지하는 데 필수적인 도구이다. 예를 들어, 하나의 프로젝트는 `numpy==1.21`이 필요하고 다른 프로젝트는 `numpy==1.19`를 요구하는 상황에서, 잘못된 버전이 설치되면 특정 함수가 누락되거나 코드 실행 중 오류가 발생할 수 있다. 가상 환경은 이러한 충돌을 방지할 수 있다. 가상 환경이란 무엇인가요?가상 환경은 특정 프로젝트에 필요한 Python 실행 파일과 라이브러리를 독립적으로 보관하는 디렉터리입니다. 이를 통해 프로젝트 간의 충돌을 방지하고 효율적으로 작업할 수 있는 환경을 제공한다.- 프로젝트 간 의존성 충돌 방지- 특정 환경을 재현하여 테스트 과정 단순화- 개발, 테스트, 운영 환경 간 일관성 유지 Conda를 사용하..

[논문 리뷰 | CV] Denoising Vision Transformers

🔗 [arxiv]👨‍👩‍👧 Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang📅 2024/01/05 🔖 논문 요약문제 정의: 비전 트랜스포머 (Vision Transformer, ViT)의 특성 맵에서 발생하는 격자 무늬의 노이즈 (위 이미지 'Original features')로 인해, dense prediction 작업에서 성능을 저하시킨다.제안된 방법: ViT 특성 맵에서 발생하는 노이즈를 제거하는 Denoising Vision Transformers (DVT)를 소개한다.핵심 결과: DVT를 통해 노이즈가 제..

[논문리뷰 | 딥러닝, 미세조정] LoRA: Low-Rank Adaptation of Large Language Models

읽기 편하도록 추가 설명은 접은 글로 정리해 두었습니다. GPT와 같은 대규모 사전 학습 언어 모델은 다양한 다운스트림 작업에 활용된다. 예를 들어, GPT 모델을 의료 데이터를 사용해 추가로 훈련하여 의료 데이터를 분석하거나, 챗봇에 특화된 대화 능력을 강화하는 등 여러 방식으로 활용할 수 있다. 하지만 모델의 크기가 워낙 커서 기존의 훈련 방식으로는 효율적으로 학습시키기 어렵다. 이를 해결하기 위한 접근 중 하나인 LoRA는 모델의 파라미터를 고정한 채 빠르게 학습을 진행할 수 있게 한다.  🔗 [arxiv 링크]👨‍👩‍👧 Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, We..

[데이터 과학 blog] AI 팟캐스트 추천, 딥러닝 논문, 블로그 챌린지 시작

🎧 데이터 과학 팟캐스트 팟캐스트는 주로 출퇴근길에 듣다 보니, 요즘 재택근무를 거의 하면서 예전만큼 듣지 않게 되었다. 그러다 보니 여러 팟캐스트를 듣기보다는 하나로 정착하게 되었는데, 그중 꾸준히 듣고 있는 팟캐스트가 있어 소개하려 한다!이 팟캐스트는 영어로 진행되지만 유튜브 채널과 웹사이트도 있어서 텍스트 버전으로도 내용을 확인할 수 있다. 출퇴근길에 듣다가 궁금한 내용이 있으면 웹사이트에 들어가서 정리된 글을 읽거나 관련 뉴스를 찾아보곤 하는데, 이 과정이 정말 유익하다.유튜브 채널에 영상이 조금 느리게 올라오는 편이긴 하지만, 꾸준히 업데이트는 되고 있다.이 팟캐스트 진행자는 풀타임 직업을 가진 상태에서 이것을 사이드 프로젝트로 운영 중인데, 정말 존경스러울 따름이다. 나처럼 풀타임으로 일하고..

[머신러닝/딥러닝] Foundation Model이란?

파운데이션 모델 foundation model딥러닝 기술의 발전과 더불어, '파운데이션 모델'이라는 (나름) 새로운 개념이 등장하며 주목받고 있습니다. 본 포스트에서는 파운데이션 모델이 무엇인지 자세히 살펴보겠습니다. 파운데이션 모델이란?파운데이션 모델은 엄청난 양의 데이터로 학습된 인공 지능 모델로서 많은 양의 데이터를 통해 일반적인 지식과 패턴을 먼저 흡수한 후, 이를 바탕으로 다양한 분야의 작업을 할 수 있는 모델입니다.   기존 딥러닝 모델을 특정 레시피만 숙지한 요리사라고 생각해 보면 이해가 쉽습니다. 이 요리사는 특정 요리를 만드는 데는 능숙하지만, 다른 요리는 만들 수 없습니다. 반면에 파운데이션 모델은 요리의 기본 원리를 터득한 셰프라고 생각하면 됩니다. 셰프는 다양한 재료와 기법을 활용하..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

728x90
반응형