ᐧ༚̮ᐧ Career Journal/TIL

[일주일 TIL 모음집 #1] 데이터 과학자의 일주일 치 TMI 가득한 TIL ✏️

Letter_B 2024. 8. 23. 15:19
728x90
반응형

 
✏️ = TIL 오늘 배운 것, 또는 느낀 점

🙉 = TMI 주저리주저리


 
2024.08.19
 

 
 
🙉 Procrastination
논문 읽기, 딥러닝 공부, 블로그 포스팅, 테니스 레슨 등등 하겠다고 마음먹고도 실행하지 못한 일들이 점점 내 마음을 무겁게 만든다. 미루는 습관(Procrastination)을 멈추기 위해 내가 할 수 있는 방법들을 잠시 고민해봤다.
 
내가 미루지 않고 잘하는 것들: 책 읽기, 코딩 관련 업무, 집 청소 등등
내가 미루는 것들: 딥러닝 공부, 논문 읽기, 블로그 포스팅 등등
 
딥러닝 공부 같이 끝이 없어 보이는 일들은 더더욱 시작하기가 어렵다. 그래서 온라인에서 찾은 몇 가지 팁을 실천해 보려고 한다.
- 2분 이내에 끝낼 수 있는 일은 바로 실행하기
- 시간 차단하기: 점심 식사 후 30분을 논문 읽는 시간으로 정해서 실천해 보기
- 큰 업무 작게 나누기: '논문 읽기!'라는 큰 목표보다는 'abstract 읽기'처럼 작은 목표를 설정해 부담감을 줄여보기

그리고 하루의 마무리로 블로그에 TIL을 정리해보려고 한다. 그날의 업무를 정리하는 느낌으로도 좋을 것 같고, 긴 프로젝트를 진행하면서 결과물이 없는 날에는 힘빠지는데 이렇게 과정을 정리하면 좀 더 도움이 되지 않을까 싶다.
 
✏️  Normalization
데이터 전처리 과정 중 하나인 Normalization.
Pretrained 모델의 경우, 모델이 학습된 데이터셋의 mean과 std 값을 사용해 정규화를 한다. 해당 모델의 원래 데이터 분포에 맞춰져 있기 때문에 같은 전처리 과정을 거치는 것이 좋지만, 내 데이터셋은 꽤 달랐다. 그래서 내 데이터셋의 mean과 std를 계산해 정규화를 시도해보았다. 두 번 실험을 해봤지만, 결과는 비슷했다. 계속 테스트해봐야겠다.
 

✏️  Feature engineering
비디오 데이터셋에 대한 Feature Engineering에 대해서도 알아봐야겠다고 느꼈다. 비디오 프레임 간 차이를 구하는 temporal difference features를 추출해 사용하거나, 다른 특징 추출 방법이 있는지 알아봐야겠다.
 
 
2024.08.20
 

 

 

🙉  시드니 메트로 첫 탑승
10년이 걸렸다는 시드니 메트로가 월요일에 개통했다.
나도 덕분에 출근시간에 환승안해도 되고 20분 절약!
블랙홀에 빨려들어가는 듯 사라지는 아침시간을 20분 절약이라니 꿀이다.
게다가 환승 안해도 되서 세이브되는 멘탈 에너지. 일주일에 출근 2번 하지만
 
✏️ 출근 길에 들은 팟캐스트

  • Meta, LLaMA-3 출시: Meta가 새로운 AI 모델 LLaMA-3를 출시해 페이스북, 인스타그램, 왓츠앱에 통합, 고급 AI 비서 기능 제공. 현재 오픈소스 중 최고라고 꽤나 큰 뉴스였다는데 바위 아래 사는 나는 뉴스를 못 봄 ㅠ 궁금하니 나중에 찾아봐야겠다.
  • Canva, Leonardo.AI 인수: Canva가 Leonardo.AI를 인수를 했다고 한다. 둘 다 호주 회사라 더 관심이 간다.
  • 웨이모 무인 택시 가격: 웨이모의 무인 택시가 SF에서는 많이 운영되기 시작했다고 한다. 기본 택시보다 아직 비싸다고 함
  • 인스타그램 AI 봇: 인스타그램, Character.AI를 살짝 따라하는 AI 봇 도입한다고 함. 틱톡 따라 릴스 만든것처럼..ㅎ
  • 애플 AI 출시 지연: 애플의 AI 출시 지연 ios18버전과 함께 출시 될 얘기도 있었다고 하지만 미뤄줬다고 함.

 

반응형

 

 

 

2024.08.21


✏️  불균형 데이터셋
불균형 데이터셋 문제를 해결하기 위해 focal loss, weighted cross entropy loss, oversampling, undersampling 등 다양한 방법을 시도해 본 날.
그중에서 oversampling과 undersampling이 상대적으로 효과가 좋았지만, 전체 데이터셋을 기준으로 볼 때 specificity가 올라가면 accuracy가 떨어지는 딜레마에 직면..! 베이스라인 모델 단계에서 더 이상 시간을 지체할 수 없어서, 퇴근 전에 그나마 효과적이었던 파라미터를 사용해 모델을 돌려놨다.내일 내일 아침에 출근해서 결과를 확인하고 좌절할 마음의 준비는 되어 있다. (?)

 

 

2024.08.22


✏️ 논문 정리

오늘 미팅에서 다들 리서치 / 읽은 논문을 어떻게 정리하냐는 질문이 오갔다. 몇몇 친구들은 정말 도구를 잘 사용해서 읽은 논문을 정리하고 있었다. 난 잘 읽히지 않는 논문은 프린터로 뽑아 여기저기 두고, 컴퓨터에는 이 폴더 저 폴더 뒤죽박죽으로 정리해 두는 편이라 정리가 엉망이다. 리서치 단계도 좀 더 체계적으로 해봐야겠다고 느낌! 추천받은 툴을 써보고 괜찮으면 이건 나중에 따로 블로그에 정보용 글로 올릴 예정이다!

 

🙉  너무 💩같은 베이스라인 모델

베이스라인 모델이 너무 별로다..

지금까지 돌린 모델 결과를 바탕으로 데이터를 좀 더 살펴볼 필요가 있다. 데이터셋이 작으니 문제가 많다.

 

 

2024.08.23


✏️ LoRA

오늘은 미세조정 방법 중 하나인 LoRA + 파운데이션 모델 조합으로 실험 해 본 날. zero-shot으로 파운데이션 모델로 예측할 경우, 내 데이터셋은 guessing 수준의 성능을 보인다. 현재 Downstream task 미세조정 중! LoRA는 Linear layer를 타겟으로 하는 거란 글 보고 일단 시작 베이스라인을 그렇게 돌리는 중이다. CLIP 베이스인 모델이라 텍스트 인풋까지 생각하면 실험해볼 요소들이 많아 또 쉽지 않을 듯 😅

 


 

이렇게 정리하고 보니 TIL보다 일기 같은 느낌..

다음 주에는 배운 내용을 좀 더 체계적으로 정리해서, 나중에 내가 읽거나 다른 사람이 읽을 때도 도움이 될 수 있는 글을 염두에 두고 써봐야겠다.

이번 주도 끝!

728x90
반응형