728x90
반응형

분류 전체보기 80

[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

코헨의 카파(Cohen's kappa, κ) 점수는 두 관찰자가 어떤 항목을 분류할 때 얼마나 일치하는지, 그리고 그 일치도가 우연 때문이 아닌지를 평가하는 지표이다. 예를 들어, 두 사람이나 딥러닝 모델이 소셜 미디어 게시물을 검토하고 '적절함' 또는 '부적절함'으로 분류한다고 가정해 봤을 때, 두 평가자(또는 모델)가 얼마나 일치했는지를 확인하려면 코헨의 카파 점수를 계산할 수 있다. 공식:   p_o​: 관찰된 일치 비율, 즉 평가자들이 실제로 일치한 비율을 의미p_e: 우연히 일치할 가능성을 나타내는 기대 일치 비율 값의 해석:κ=1: 완전한 일치.κ=0: 우연과 동일한 수준의 일치.κ0: 우연보다 낮은 수준의 일치.보통 다음과 같이 해석한다:0.81–1.00: 거의 완벽한 일치.0.61–0.80..

[호주] AI 스타트업 워크샵 후기

AI 스타트업 워크샵 후기링크드인을 둘러보다가 우연히 발견한 AI 스타트업 워크샵. 정부 지원을 받아 8주간 무료로 진행되는 온라인 프로그램이었고, 스타트업 창업자뿐 아니라 관심 있는 누구나 신청할 수 있다는 점이 마음에 들어 지원했다. 사실, 내가 현재 진행 중인 연구가 상업화 가능성이 있다는 이야기를 슈퍼바이저와 나눈 적이 있어 이 프로그램이 더욱 눈에 들어왔던 것 같다. 그렇게 어쩌다(?) 합격하게 되어 워크샵에 참여하게 되었다.워크샵의 구조와 첫인상일주일에 한 번, 퇴근 후 1시간 반 동안 진행되는 온라인 워크샵은 스타트업 관련 강연과 참여자들 간의 네트워킹 세션으로 구성된다. 강연은 스타트업의 기본적인 이론부터 실질적인 실행 방법까지 다루며, 브레이크아웃 룸에서 다른 참가자들과 아이디어를 나누는..

[파이썬 pandas] 데이터 프레임 열 데이터 타입 확인 및 변경하기

판다스에서 데이터를 다룰 때, 데이터 유형을 이해하고 적절히 관리하는 것은 매우 중요합니다. 올바른 데이터 유형을 사용하면 계산 오류를 방지하고, 정확한 분석과 시각화를 가능하게 하며, 효율적인 데이터 처리를 할 수 있습니다. 이 글에 사용할 예제 데이터 프레임을 만들어 보겠습니다.이번 예제에서는 책 데이터베이스를 분석한다고 가정해 보겠습니다. 제목, 저자, 발행 연도, 가격, 재고 여부와 같은 정보를 포함한 데이터프레임을 사용해 데이터 유형을 확인하고 적절히 변경하는 방법을 배워보겠습니다. import pandas as pddata = { "Title": ["To Kill a Mockingbird", "1984", "The Great Gatsby", "The Catcher in the Rye"],..

[GenAI #1] 생성형 인공지능 (Generative AI)이란?

생성형 AI란?생성형 AI는 입력된 프롬프트(질문, 요청, 설명 등)에 따라 새로운 콘텐츠(텍스트, 이미지, 동영상, 음악, 코드 등)를 생성하는 인공지능 기술이다. 기존 데이터를 학습하여 그 구조와 패턴을 이해한 후, 이를 바탕으로 독창적이거나 창의적인 결과물을 만들어냅니다.  주요 특징학습 및 생성 능력대규모 데이터 세트를 기반으로 패턴과 관계를 학습.학습한 데이터를 토대로 새로운 텍스트, 이미지, 음성, 코드 등을 생성.활용 분야텍스트 생성: 예) ChatGPT를 사용해 글쓰기, 이메일 작성, 대화 생성.이미지 생성: 예) DALL·E와 MidJourney로 예술 작품, 제품 디자인.음악 및 음성: 음악 작곡, 음성 합성.코드 생성: GitHub Copilot으로 코드 작성 보조.비디오 제작: 간단..

데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까?

데이터 과학에 얼마나 많은 수학이 필요한가? 최근 몇 년간 데이터 과학은 주목받는 직업 중 하나로 자리 잡았다. 데이터 과학은 컴퓨터 과학, 통계학/수학, 그리고 도메인 지식을 결합한 다학문적(interdisciplinary) 분야로, 데이터를 분석하고 인사이트를 도출하며 의사결정을 지원하는 데 핵심적인 역할을 한다. 데이터 과학자의 역할은 회사와 상황에 따라 다양하지만, 이번 글에서는 데이터 과학에서 일반적으로 요구되는 수학적 지식의 수준을 정리해 보았다.  이 글은 호주에서 일하고 있는 사람이 작성한 만큼, 다른 상황에서는 다를 수 있습니다. 여러분의 경험과 의견이 다르다면 댓글로 자유롭게 공유해 주세요!  데이터 과학자에게 수학이 필요한 이유데이터 과학의 핵심은 데이터를 이해하고 이를 기반으로 정보..

[파이썬, conda] 가상 환경이란? (feat. 가상환경 생성, 활성화, 삭제)

가상 환경은 프로젝트별 라이브러리를 분리하여 서로 간의 충돌을 방지하는 데 필수적인 도구이다. 예를 들어, 하나의 프로젝트는 `numpy==1.21`이 필요하고 다른 프로젝트는 `numpy==1.19`를 요구하는 상황에서, 잘못된 버전이 설치되면 특정 함수가 누락되거나 코드 실행 중 오류가 발생할 수 있다. 가상 환경은 이러한 충돌을 방지할 수 있다. 가상 환경이란 무엇인가요?가상 환경은 특정 프로젝트에 필요한 Python 실행 파일과 라이브러리를 독립적으로 보관하는 디렉터리입니다. 이를 통해 프로젝트 간의 충돌을 방지하고 효율적으로 작업할 수 있는 환경을 제공한다.- 프로젝트 간 의존성 충돌 방지- 특정 환경을 재현하여 테스트 과정 단순화- 개발, 테스트, 운영 환경 간 일관성 유지 Conda를 사용하..

[TIL#2] 아직 배울게 너무 많은 데이터 과학자의 일주일

이번 주에 배운 것들이번 주에 자잘 자잘하게 배운 것들을 모아봤다. 사실 배워야 할 것들을 모은 수준이다..! 😅1. 새로운 프로젝트를 준비하며내년에는 새로운 프로젝트를 시작할 계획인데, 사용할 수 있는 데이터셋이 또! 제한적이다. 이를 보완하기 위해 생성형 AI를 활용하는 방법을 알아봐야 해서 생성형 AI를 공부하라는 지시?를 받았다. 어디서 뭘 어디부터 봐야 할지 모르겠지만 다음 주에 한번 자료/유튜브 검색을 해보고 차근차근 배워야겠다. 배우고 준비를 해두어야 우리 프로젝트에 알맞은 생성형 AI가 나와도 빠르게 도입할 수 있기 때문!2. 대규모 데이터와 자기지도학습 (Self-Supervised Learning)우리 프로젝트와 연관있는 SSL을 사용하는 파운데이션 모델에 대해 읽고 있다. 이런 논문..

[통계] p값 이해하기

왜 p-value가 중요한가?데이터 과학 분야에서도 p값을 자주 볼 수 있다. 모델 검증, 특징 선택, 가설 검정에서 핵심 역할을 하며, 데이터 과학자가 신뢰할 수 있는 통찰을 도출할 수 있도록 돕는다. UI의 A/B 테스트, 머신러닝 결과 해석 등에서 p값은 불확실성을 정량화하고 근거 있는 결정을 내리는 데 기여한다. 실험이나 연구 결과가 통계적으로 유의미한지, 즉 관찰된 효과가 진짜일 가능성이 높은지 아니면 단순히 우연에 의한 것인지 판단하는 데 도움을 준다.  p-value란 무엇인가요?p값은 귀무 가설이 맞다고 가정했을 때, 실제로 관찰된 결과와 같거나 더 극단적인 결과가 나올 확률을 의미한다. 1. 귀무가설 (null hypothesis, H₀): 비교의 기준이 되는 기본 가정입니다.예를 들어,..

나의 모닝 루틴: 지금 나의 루틴과 추가하고 싶은 습관

🌞 모닝루틴이 중요한 이유아침 시간을 잘 활용하는 것은 하루의 시작을 긍정적으로 이끄는데 큰 도움을 준다. 아침에 운동을 하면 하루 종일 기분이 좋고 활력이 넘치는 것을 체감할 수 있다. 실제로, 규칙적인 아침 루틴은 스트레스 호르몬인 코티솔 수치를 낮추는 효과가 있다는 연구 결과도 있다. 운동뿐만이 아니라, 아침에 명상이나 일기를 쓰는 활동을 통해 집중력이 높아지고 하루 종일 생산성이 향상된다고 한다. 꾸준한 모닝 루틴을 통해 마음과 몸의 건강을 돌볼 수 있다는 것이다. 🌞 성공한 사람들의 아침 습관’성공한‘ 사람들을 인터뷰한 팟캐스트를 요약한 도서인 『타이탄의 도구』에서 많이 언급되었던 모닝 루틴 습관에는 명상, 운동, 일기 / 글쓰기, 찬물샤워, 독서, 공부, 시각화 등등이 있다. 이제 하도 많..

[논문 리뷰 | CV] Denoising Vision Transformers

🔗 [arxiv]👨‍👩‍👧 Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang📅 2024/01/05 🔖 논문 요약문제 정의: 비전 트랜스포머 (Vision Transformer, ViT)의 특성 맵에서 발생하는 격자 무늬의 노이즈 (위 이미지 'Original features')로 인해, dense prediction 작업에서 성능을 저하시킨다.제안된 방법: ViT 특성 맵에서 발생하는 노이즈를 제거하는 Denoising Vision Transformers (DVT)를 소개한다.핵심 결과: DVT를 통해 노이즈가 제..

728x90
반응형