본문 바로가기

수학

Maximum likelihood

https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/maximum-likelihood.html

 

19.7. Maximum Likelihood — Dive into Deep Learning 1.0.0-alpha0 documentation

 

d2l.ai

19.7.1. The Maximum Likelihood Principle

우리의 목적은 모델 파라미터 $\theta$와 데이터 $X$가 있을 때, 우리 모델이 가장 나은 값을 얻기 위해서는 우리는

$$ argmax P(\theta | X) $$

를 찾아야 한다.

위 식을 베이즈 규칙에 따라 풀면

  • $\theta$ : 모델 파라미터, 가설 ex. 동전 앞이 나올 것이다
  • $P(\theta)$ : 가설이 참일 확률, 0.5, 사건에 따른 결과가 아니라 가설값
  • $X$ : 데이터=결과=실험값 ex) [앞,뒤,뒤,뒤]
  • $P(X)$ : 가설, 모델에 따라 변하지 않는 확률 값 ex) 0.25

$P(\theta)$와 $P(X)$는 영향을 미치지 않아 likehood는 $P(X|\theta)$이다.

likelihood : 파라미터가 얼마나 데이터를 잘 확인하는지

우리가 설정한 가설(가설확률)이 얼마나 잘 맞는지

19.7.1.1. A Concrete Example

3군데 기울기가 0이 되는 지점, 최소2개(양끝)+최대 1개(0.7)부근

19.7.2. Numerical Optimization and the Negative Log-Likelihood

likelihood 최대화=log likelikhood 최대화=loss 최소화=negative log likelihood($-log(P(X|\theta)$)

negative log-likelihood를 쓰는 이유

  1. 수적인 편리함
  2. 미분 규칙을 단순화해서 적용할 수 있다
  3. 정보이론과 관련해서 entropy와도 관련있다

19.7.3. Maximum Likelihood for Continuous Variables

이산→연속으로 바꿀때

수식은 같고, 확률 밀도로 바꾸기만 한다.

epsilon을 작게 하는 이유는 확률 밀도함수에서 값을 얻어내기 위해서이다.=한 줄=하나의 직사각형

$\epsilon$은 $\theta$와 독립적. 그냥 추가적인 상수이다.

어차피 loglikelihood의 절대적 값이 중요한것이아니라 방향, 줄어드는 방향이 중요하기 때문에 $\epsilon$은 떨굴 수 있다