[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

ᐧ༚̮ᐧ Data Science | AI/통계, 수학

[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

데이터과학자B 2024. 11. 21. 09:31

728x90

코헨의 카파(Cohen's kappa, κ) 점수는 두 관찰자가 어떤 항목을 분류할 때 얼마나 일치하는지, 그리고 그 일치도가 우연 때문이 아닌지를 평가하는 지표이다.

예를 들어, 두 사람이나 딥러닝 모델이 소셜 미디어 게시물을 검토하고 '적절함' 또는 '부적절함'으로 분류한다고 가정해 봤을 때, 두 평가자(또는 모델)가 얼마나 일치했는지를 확인하려면 코헨의 카파 점수를 계산할 수 있다.

공식:

p_o: 관찰된 일치 비율, 즉 평가자들이 실제로 일치한 비율을 의미
p_e: 우연히 일치할 가능성을 나타내는 기대 일치 비율

값의 해석:

κ=1: 완전한 일치.
κ=0: 우연과 동일한 수준의 일치.
κ<: 우연보다 낮은 수준의 일치.

보통 다음과 같이 해석한다:

0.81–1.00: 거의 완벽한 일치.
0.61–0.80: 상당한 일치.
0.41–0.60: 중간 수준의 일치.
0.21–0.40: 보통 수준의 일치.
0.00–0.20: 약간의 일치.
< 0.00: 일치하지 않음.

예시: 소셜 미디어 부적절한 게시물 검토

A와 B는 소셜 미디어 게시물을 검토하고, 각각 "적절함" (1) 또는 "부적절함" (0)으로 분류합니다. 두 사람이 얼마나 일치했는지 확인하려면 코헨의 카파 점수를 계산할 수 있습니다.

데이터 예시

게시물:     1  2  3  4  5  6  7  8  9  10
관리자 A:   1  0  1  1  0  0  1  0  1  1
관리자 B:   1  0  1  0  0  0  1  1  1  1

코헨의 카파 계산:

p_o: 관찰된 일치 비율. 두 사람이 일치한 경우는 게시물은 총 8개이다.
p_o = 8/10 = 0.8
p_e:
적절함이라고 말할 확률: A(6/10) x B(6/10) = 0.36
부적절함이라고 말할 확률: A(4/10) x B(4/10) = 0.16
p_e = 0.36 + 0.16 = 0.52

보통 수준의 일치: 두 관찰자는 단순히 우연에 의해 예측되는 것보다 더 자주 일치했지만, 그들의 일치도가 특별히 높은 것은 아니다.

아래 코드로 파이썬에서 카파 상관계수를 계산할 수 있다.

from sklearn.metrics import cohen_kappa_score

# 예시 데이터
observer_a = [1, 0, 1, 1, 0, 0, 1, 0, 1, 1]
observer_b = [1, 0, 1, 0, 0, 0, 1, 1, 1, 1]

# 코헨의 카파 계산
kappa = cohen_kappa_score(observer_a, observer_b)
print(kappa)

출력:

0.5833333333333333

728x90

저작자표시 (새창열림)

'ᐧ༚̮ᐧ Data Science | AI > 통계, 수학' 카테고리의 다른 글

데이터 과학자를 위한 수학 유튜브 채널 추천! (1)	2024.11.24
데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까? (2)	2024.11.17
[통계] p값 이해하기 (1)	2024.11.14
[딥러닝 / 수학] 코사인 유사도 cosine similarity 이해하기 (1)	2024.06.21
[통계학 with R, Python] t-검정 (t-test) (0)	2021.09.12

현재글[AI | 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제

👋 저는 시드니에서 거주하는 데이터 과학자입니다. 현재 컴퓨터 비전 관련 일을 하고 있습니다.

데이터 분석, 데이터 과학, 딥러닝, 티스토리챌린지, 머신러닝, 데이터 과학자, 파이썬, 인공지능, 데이터분석, 오블완, 다운로드, 통계, 판다스, 데이터 사이언스, 데이터과학, 설치, AI, sql, 독학, R,

Today :
Yesterday :

Bee's 데이터 과학