728x90
반응형

ᐧ༚̮ᐧ Data Science | AI/통계, 수학 9

데이터 과학자를 위한 수학 유튜브 채널 추천!

데이터 과학자로서 선형대수, 미적분, 통계학 같은 수학 개념은 필수이다. 머신러닝과 딥러닝 모델을 제대로 이해하려면 수학 공부가 반드시 필요하다. 그런데 글로만 배우다 보면 개념이 명확하게 와닿지 않을 때가 많다. 그럴 때마다 찾게 되는 곳이 바로 유튜브이다. 글로만 봐서는 이해가 잘 안 되던 개념도, 다른 시각적 표현이나 설명 방식으로 접하면 훨씬 더 쉽게 이해될 때가 많기 때문이다. 물론 유튜브 영상만으로 완벽하게 공부하기는 어렵다. 하지만 영상을 통해 전체적인 개념을 먼저 이해하고, 이후에 더 깊이 있는 공부를 이어가는 방식으로 학습하는 데 큰 도움이 된다. 그래서 오늘은 내가 정말 많이 참고해 온 유튜브 채널 두 개를 추천하려고 한다. 이미 많은 분들이 알고 계실지도 모르지만, 혹시 모르는 분들을..

[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

코헨의 카파(Cohen's kappa, κ) 점수는 두 관찰자가 어떤 항목을 분류할 때 얼마나 일치하는지, 그리고 그 일치도가 우연 때문이 아닌지를 평가하는 지표이다. 예를 들어, 두 사람이나 딥러닝 모델이 소셜 미디어 게시물을 검토하고 '적절함' 또는 '부적절함'으로 분류한다고 가정해 봤을 때, 두 평가자(또는 모델)가 얼마나 일치했는지를 확인하려면 코헨의 카파 점수를 계산할 수 있다. 공식:   p_o​: 관찰된 일치 비율, 즉 평가자들이 실제로 일치한 비율을 의미p_e: 우연히 일치할 가능성을 나타내는 기대 일치 비율 값의 해석:κ=1: 완전한 일치.κ=0: 우연과 동일한 수준의 일치.κ0: 우연보다 낮은 수준의 일치.보통 다음과 같이 해석한다:0.81–1.00: 거의 완벽한 일치.0.61–0.80..

데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까?

데이터 과학에 얼마나 많은 수학이 필요한가? 최근 몇 년간 데이터 과학은 주목받는 직업 중 하나로 자리 잡았다. 데이터 과학은 컴퓨터 과학, 통계학/수학, 그리고 도메인 지식을 결합한 다학문적(interdisciplinary) 분야로, 데이터를 분석하고 인사이트를 도출하며 의사결정을 지원하는 데 핵심적인 역할을 한다. 데이터 과학자의 역할은 회사와 상황에 따라 다양하지만, 이번 글에서는 데이터 과학에서 일반적으로 요구되는 수학적 지식의 수준을 정리해 보았다.  이 글은 호주에서 일하고 있는 사람이 작성한 만큼, 다른 상황에서는 다를 수 있습니다. 여러분의 경험과 의견이 다르다면 댓글로 자유롭게 공유해 주세요!  데이터 과학자에게 수학이 필요한 이유데이터 과학의 핵심은 데이터를 이해하고 이를 기반으로 정보..

[통계] p값 이해하기

왜 p-value가 중요한가?데이터 과학 분야에서도 p값을 자주 볼 수 있다. 모델 검증, 특징 선택, 가설 검정에서 핵심 역할을 하며, 데이터 과학자가 신뢰할 수 있는 통찰을 도출할 수 있도록 돕는다. UI의 A/B 테스트, 머신러닝 결과 해석 등에서 p값은 불확실성을 정량화하고 근거 있는 결정을 내리는 데 기여한다. 실험이나 연구 결과가 통계적으로 유의미한지, 즉 관찰된 효과가 진짜일 가능성이 높은지 아니면 단순히 우연에 의한 것인지 판단하는 데 도움을 준다.  p-value란 무엇인가요?p값은 귀무 가설이 맞다고 가정했을 때, 실제로 관찰된 결과와 같거나 더 극단적인 결과가 나올 확률을 의미한다. 1. 귀무가설 (null hypothesis, H₀): 비교의 기준이 되는 기본 가정입니다.예를 들어,..

[딥러닝 / 수학] 코사인 유사도 cosine similarity 이해하기

코사인 유사도란?코사인 유사도는 두 벡터가 얼마나 유사한지를 측정하는 방법을 제공합니다. 이때 벡터의 크기는 결과에 영향을 미치지 않습니다.  예를 들어, 2차원 공간에서 두 벡터를 고려할 때, 코사인 유사도는 이 벡터들 사이의 각도에 대한 코사인 값을 계산합니다. 이 값은 -1에서 1 사이에 위치하며 다음과 같은 의미를 가집니다:값이 1이면 두 벡터가 동일함을 나타냅니다. (각도 = 0˚)값이 0이면 두 벡터가 완전히 직교함을 나타냅니다. (각도 = 90˚)값이 -1이면 두 벡터가 정반대임을 나타냅니다. (각도 = 180˚) 코사인 유사도는 두 벡터 간의 유사성을 측정하기 때문에 다양한 딥러닝 분야에서 널리 활용됩니다. 예를 들어, 자연어 처리(NLP)에서는 단어 임베딩의 유사성을 계산하여 의미가 비슷..

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

[통계] 결합확률분포 Joint Distributed Random Variables

확률 확률은 어떤 사건이 일어날 가능성의 측도입니다. 자주 두 가지 이상의 사건의 관계를 알아봐야 할 일이 생기는데 그때 알아야 할 확률 유형이 세 가지가 있습니다. 결합 확률 (Joint probability) P(A and B) = P(A, B) 두 사건이 동시에 발생할 확률을 의미합니다. 주변 확률 (Marginal probability) P(A) 또는 P(B) 두 개 이상의 확률변수들의 결합 분포로부터, 그중 하나만의 확률변수에 대한 확률 조건부 확률 (Conditional probability) P(A|B) = 사건 B가 사실일 경우 A의 확률 하나가 사실일 경우의 다른 사건에 대한 확률 두 개의 이산 확률변수 Discrete Random Variable 결합 확률 질량 함수 Joint Prob..

[통계] 확률변수, 확률분포

확률 Probability 확률이란 어떤 일이 일어날 가능성의 측도입니다. 확률은 A 사건(event)이 일어나는 경우의 수와 나올 수 있는 모든 경우의 비율이라고 할 수 있습니다. 통계적 실험을 했을 때 나올 수 있는 모든 경우의 수를 표본 공간 sample space라고 부릅니다. 어떤 사건 A의 확률 = (A 사건이 일어나는 경우의 수) / (나올 수 있는 모든 경우 [표본 공간]) 예를 들어, 동전을 던졌을 때 얼굴이 나오는 확률은 나올 수 있는 경우 숫자면, 얼굴면 2가지 경우에서 하나이기 때문에 1/2 = 0.5 = 50%의 확률입니다. 확률 변수 Random Variable 결과를 예측할 수 없는 무작위 (random) 실험에서 나타날 수 있는 결과를 수치로 표현한 값입니다. 주로 대문자 알..

[통계] 척도 (Scale)의 4가지 종류: 명목 척도, 서열 척도, 구간 척도, 비율 척도

척도(scale)는 데이터(자료)가 정의되고 분류되는 방식을 나타냅니다. 이 글에서는 4가지의 척도의 종류(명목, 서열, 구간, 비율 척도)를 설명해보겠습니다.질적 자료 vs 양적 자료자료는 크게 질적과 양적 자료로 구분할 수 있습니다.질적 자료 (quantitative): 숫자로 표현할 수 없는 정보로 그룹으로 묶기 때문에 범주형 자료라고도 합니다. (예: 색깔, 성별, 취미, 국가), 연산이 불가능양적 자료 (qualitative): 숫자로 표현할 수 있는 정보 (예: 키, 몸무게, 시험 성적), 연산 조작이 가능, 평균, 편차 등 계산이 가능하다 질적 자료는 다시 명목 척도, 순위 척도로, 양적 자료는 구간 척도, 비율 척도로 구분됩니다. 명목 척도 (nominal scale)nominal 뜻 그대..

728x90
반응형