베이즈 통계학
데이터가 추가될 때 정보 업데이트 하는 방법에 대한 이론
조건부 확률 $P(A \cap B)$
A와 B라는 두 사건이 있을 때 $B$가 일어난 상황에서 사건 A가 일어날 확률
$$P(A \cap B) = P(B)P(A|B)$$
베이즈정리
조건부 확률을 이용해서 정보를 갱신하는 방법
$$P(B|A) =\frac{ P(A|B) }{P(A)} = P(B) \frac{P(A|B)}P{A} $$
여기에서는 새로운 정보 A가 들어왔을 때 원래 사건이 일어날 확률 P(B|A)을 계산하는 것이다
- 사후확률 : Posterior probability
데이터를 관찰했을 때 hypothesis가 성립할 확률
데이터를 관찰한 이후에 측정한다. - 사전확률 : Prior probability
사전에 데이터가 주어지지 않았을 때 hypothesis에 대한 확률
데이터 분석 전에 타겟에 대해서 가정을 하고 확률분포에 대해 설정한다.
사전확률에서 사후확률을 계산할 때 베이즈정리를 사용해서 update를 한다
다시 말하면 앞서 계산한 사전확률을 사전확률로 사용해서 사후확률을 갱신한다.
위 사진의 A와 B를 각각 A->$\mathscr{D}$ 로, B->$\theta $로 바꾸어서
$$P(\theta|\mathscr{D}) = P(\theta) \frac{P(\mathscr{D}|\theta)}{P(\mathscr{D})}$$
로 대부분 표현한다.
Confusion matrix
조건부 확률을 시각화 한 것이다. 이것을 confusion matrix라고 부르는데 4개의 부분으로 나눠서 볼 수 있다
True/False는 예측과 실제가 맞았다는 것을 뜻하고
Positive/negative는 나의 예측을 의미한다
- TP : True Positive : 양성(positive)인 것을 맞췄다(True).
예측 : 양성 (1) positive
실제 : 양성 (1)
->병에 걸릴 것이라고 예측하고 병에 걸림 - TN : True Negative : 음성(negative)인 것을 맞췄다(True).
예측 : 음성 (0) negative
실제 : 음성 (0)
->병에 안 걸릴 것이라고 예측하고 실제로 병에 안 걸림 - FP : False Positive : 음성(negative)인 것을 틀렸다(False). : 1종오류
예측 : 양성 (1) positive
실제 : 음성 (0)
->병에 걸리지 않았는데 걸렸다고 판단 - FN : False Negative : 음성인 것을 틀렸다. : 2종 오류
예측 : 음성 (0) negative
실제 : 양성 (1)
->병에 걸려있는데 병에 걸리지 않았다고 판단
데이터의 성격에 따라 1종오류와 2종 오류 중 어떤 것을 더 중요하게 생각해서 줄여야할 지는 다르다
정밀도 Precision
$$P(\theta|\mathscr{D}) = \frac{TP}{TP+FP}$$
인과관계 Causality
조건부 확률로 인과관계를 함부로 추론하면 안 된다.
확률이 높다고 해서 그게 원인이 될 수 없다.
데이터가 많아져도 안 된다.
인과관계는 데이터 분포가 변화하더라도 잘 변하지 않는 강건한 예측모형을 만들 때 사용한다.
인과관계를 알아내기 위해서는 여러 특징에 모두 영향을 주는 중첩 요인 (confounding factor)을 제거해야한다.
그러지 않으면 가짜 연관성(squrious correlation)이 나와서 예측 모형의 성능을 떨어트리는 원인이 된다.
그래서 do라는 조정(intervention)을 통해 중첩 효과를 제거할 수 있다.