[통계] p값 이해하기

ᐧ༚̮ᐧ Data Science | AI/통계, 수학

[통계] p값 이해하기

데이터과학자BENN 2024. 11. 14. 13:58

728x90

왜 p-value가 중요한가?

데이터 과학 분야에서도 p값을 자주 볼 수 있다. 모델 검증, 특징 선택, 가설 검정에서 핵심 역할을 하며, 데이터 과학자가 신뢰할 수 있는 통찰을 도출할 수 있도록 돕는다. UI의 A/B 테스트, 머신러닝 결과 해석 등에서 p값은 불확실성을 정량화하고 근거 있는 결정을 내리는 데 기여한다. 실험이나 연구 결과가 통계적으로 유의미한지, 즉 관찰된 효과가 진짜일 가능성이 높은지 아니면 단순히 우연에 의한 것인지 판단하는 데 도움을 준다.

p-value란 무엇인가요?

p값은 귀무 가설이 맞다고 가정했을 때, 실제로 관찰된 결과와 같거나 더 극단적인 결과가 나올 확률을 의미한다.

1. 귀무가설 (null hypothesis, H₀): 비교의 기준이 되는 기본 가정입니다.

예를 들어, 약의 효과를 테스트할 때 귀무가설은 “이 약물은 효과가 없다.”라는 주장을 의미한다.
2. 극단적인 데이터: 귀무가설이 맞다고 가정했을때 예상되는 범위를 벗어난 결과

p값이 작을수록(예: 0.01):
"이런 결과가 나올 가능성이 매우 낮으니, 우연이라고 보기 어렵다."
→ 귀무 가설을 기각!
p값이 클수록(예: 0.08):
"이런 결과가 나올 가능성이 꽤 있으니, 우연일 가능성이 충분하다."
→ 귀무 가설을 기각하지 않음.

예를 통해서 다시 정리!

▶ 예제 1: 동전 던지기
실험:

동전이 '공정하다'고 가정해 보면 앞면과 뒷면이 나올 확률이 각각 50% 일 것이다.

그런데 100번을 던졌더니 앞면이 30번 나왔다. "이 동전이 공정한 걸까?"

귀무가설:

동전은 공정하다. 앞면과 뒷면이 나올 확률이 동일하다.

결과 분석:

p값을 계산해 보니 0.0027이 나왔다. (0.27%)

p값의 의미:

동전이 정말 공정하다면 (귀무가설이 맞다고 가정했을 때), 100번 던졌을 때 30번처럼 앞면이 나올 확률이 0.27%라는 뜻이다.

결론:
보통 p값이 0.05 (5%) 이하이면 귀무가설을 기각한다.
따라서, 동전이 공정하지 않을 가능성을 의심해 볼 만합니다.

▶ 예제 2: 운동 효과 실험

실험:
두 가지 운동 프로그램(A와 B)을 비교하는 실험
"어느 운동 프로그램이 체중 감소에 더 효과적일까?"를 알아보려는 테스트이다.

귀무가설:
운동 프로그램 A와 B는 체중 감소 효과에서 차이가 없다. (두 프로그램은 동일한 효과를 낸다.)

결과 분석:
A와 B를 각각 50명에게 적용한 결과, B 프로그램을 진행한 사람들이 평균적으로 A보다 1kg 체중이 더 줄었습니다.
p값을 계산해 보니 0.08 (8%)가 나왔다.

p값의 의미:
두 운동 프로그램의 실제 효과가 같다고 가정했을 때,
B 프로그램이 A보다 평균적으로 1kg 더 많이 체중을 줄이는 결과가 나올 확률은 8%라는 뜻이다.

이 결과는 단순히 우연히 나타날 가능성(두 프로그램이 실제로 차이가 없는데도 이렇게 나올 확률)이 8%라는 것을 의미합니다. 이 정도 차이는 통계적으로 흔히 일어날 수 있는 일이기 때문에, A와 B가 다르다고 보기 어렵다.

결론:
보통 p값이 0.05 (5%) 이하일 때만 귀무가설을 기각한다. 하지만 이번 결과는 p값이 0.08로 0.05보다 크기 때문에,
두 프로그램의 차이는 단순히 우연일 가능성이 높다고 판단한다. 따라서 B 프로그램이 A보다 체중 감소 효과가 더 크다고 결론 내릴 수 없다.

728x90

저작자표시 (새창열림)

'ᐧ༚̮ᐧ Data Science | AI > 통계, 수학' 카테고리의 다른 글

[AI \| 통계] 카파 상관계수 (Cohen's Kappa) feat. scikit-learn 코드 예제 (2)	2024.11.21
데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까? (3)	2024.11.17
[딥러닝 / 수학] 코사인 유사도 cosine similarity 이해하기 (1)	2024.06.21
[통계학 with R, Python] t-검정 (t-test) (1)	2021.09.12
[통계] 결합확률분포 Joint Distributed Random Variables (0)	2021.06.15

현재글[통계] p값 이해하기

두바이에서 데이터 과학자로 일하는 중인 도비 🧦

다운로드, 데이터 분석, 통계, 데이터분석, 인공지능, 데이터 과학, AI, 독학, sql, R, 딥러닝, 판다스, 설치, 티스토리챌린지, 데이터과학, 파이썬, 데이터 과학자, 오블완, 머신러닝, 데이터 사이언스,

Today :
Yesterday :

BENN 데이터 과학