확률 Probability
확률이란 어떤 일이 일어날 가능성의 측도입니다.
확률은 A 사건(event)이 일어나는 경우의 수와 나올 수 있는 모든 경우의 비율이라고 할 수 있습니다.
통계적 실험을 했을 때 나올 수 있는 모든 경우의 수를 표본 공간 sample space라고 부릅니다.
어떤 사건 A의 확률 = (A 사건이 일어나는 경우의 수) / (나올 수 있는 모든 경우 [표본 공간])
예를 들어, 동전을 던졌을 때 얼굴이 나오는 확률은 나올 수 있는 경우 숫자면, 얼굴면 2가지 경우에서 하나이기 때문에 1/2 = 0.5 = 50%의 확률입니다.
확률 변수 Random Variable
결과를 예측할 수 없는 무작위 (random) 실험에서 나타날 수 있는 결과를 수치로 표현한 값입니다.
주로 대문자 알파벳으로 표현합니다 e.g. X, Y
확률변수는 이산 확률 변수와 연속 확률 변수로 구분할 수 있습니다.
- 이산 확률 변수 Discrete Random Variable
확률변수가 갖는 값을 셀 수 있을 때 그 변수를 이산 확률변수라고 합니다
e.g. 동전의 앞, 뒤 = 2가지의 경우, 주사위 던지고 나오는 윗면 = 6가지의 경우, 영화관 관객수,
동전의 앞면이 나올 변수를 X라고 한다면,* X(앞,앞) = 2* X(앞, 뒤) = 1* X(뒤, 앞) = 1* X(뒤, 뒤) = 0
- 연속 확률 변수 Continuous Random Variable
어떤 구간 안에 모든 실숫값을 가진 변수
e.g. 사람의 몸무게나 키, 마라톤 뛰는데 걸리는 시간, 0에서 1 사이의 숫자
확률 분포 Probability Distribution
확률 변수의 모든 값과 그 값의 확률을 나타내는 함수를 의미한다.
밑 그래프는 두 주사위를 던져서 나오는 합과 그 합이 나올 수 있는 확률을 나타내고 있다. 두 개의 주사위를 던졌을 때 합이 2가 나오는 경우는 1/36이다.
- 확률분포 함수 Probability Distribution Function
확률 변수를 표현한 함수 - 확률 질량 함수 Probability Mass Function
이산 확률 변수의 분포를 나타내는 함수출처: 위키백과 주사위 던져 나오는 값에 대한 pmf
동전의 앞면이 나올 변수를 X라고 한다면,
* X(앞, 뒤) = 1
* X(뒤, 뒤) = 0
* X(뒤, 앞) = 1
* X(앞,앞) = 2
pmf:
P(X=0) => 1/4
P(X=1) => 1/2
P(X=2) => 1/4 - 확률 밀도 함수 Probability Density Function
연속 확률 변수의 분포를 나타내는 함수출처: 위키백과 Probability Density Function - 누적 분포 함수 Cumulative Distribution Function
주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
예) 동전을 두 개 던졌을 때 얼굴면이 나오는 경우의 누적 분포 함수 (CDF)
예) 정규분포의 확률분포 함수 pdf (왼쪽)와 누적 분포 함수 cdf (오른쪽)
대한민국의 여성 평균키가 163에 위와 같은 분포를 따른다고 했을 때 P(X <173cm)를 위와 같이 표시할 수 있습니다.
확률분포 종류
이산 확률 분포: 이산 확률 변수가 가지는 확률 분포
- 이항 분포 Binomial Distribution
두 가지 경우의 수 중 어떤 것이 나오는지 확인하는 것
예) 동전 던지기 (나올 수 있는 경우가 2개이다) - 다항 분포 Multinomial Distribution
여러 개의 값을 가질 수 있는 독립 확률변수에 대한 확률 분포
예) 주사위 던지기 (나올 수 있는 경우가 6가지이다) - 포아송 분포 Poisson Distribution
어떤 기간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산 확률분포
예) 10시간 동안 물고기를 5마리 잡을 확률
연속 확률 분포: 연속 확률 변수가 가지는 확률 분포
- 정규분포 Normal Distribution
평균값을 중앙으로 하여 좌우 대칭인 분포 (가우스 분포라고도 불림)
예) 신생아 무게 - 감마 분포 Gamma Distribution
특정 수의 사건이 일어날 때까지 걸리는 시간에 대한 분포 - t 분포
정규분포보다 꼬리가 더 긴 분포 (더 넓은 예측 범위를 사용한다)
(이미지 출처: KDnuggets)
'ᐧ༚̮ᐧ Data Science | AI > 통계, 수학' 카테고리의 다른 글
[통계] p값 이해하기 (1) | 2024.11.14 |
---|---|
[딥러닝 / 수학] 코사인 유사도 cosine similarity 이해하기 (0) | 2024.06.21 |
[통계학 with R, Python] t-검정 (t-test) (0) | 2021.09.12 |
[통계] 결합확률분포 Joint Distributed Random Variables (0) | 2021.06.15 |
[통계] 척도 (Scale)의 4가지 종류: 명목 척도, 서열 척도, 구간 척도, 비율 척도 (5) | 2021.05.27 |