https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/maximum-likelihood.html
19.7. Maximum Likelihood — Dive into Deep Learning 1.0.0-alpha0 documentation
d2l.ai
19.7.1. The Maximum Likelihood Principle
우리의 목적은 모델 파라미터 $\theta$와 데이터 $X$가 있을 때, 우리 모델이 가장 나은 값을 얻기 위해서는 우리는
$$ argmax P(\theta | X) $$
를 찾아야 한다.
위 식을 베이즈 규칙에 따라 풀면
- $\theta$ : 모델 파라미터, 가설 ex. 동전 앞이 나올 것이다
- $P(\theta)$ : 가설이 참일 확률, 0.5, 사건에 따른 결과가 아니라 가설값
- $X$ : 데이터=결과=실험값 ex) [앞,뒤,뒤,뒤]
- $P(X)$ : 가설, 모델에 따라 변하지 않는 확률 값 ex) 0.25
$P(\theta)$와 $P(X)$는 영향을 미치지 않아 likehood는 $P(X|\theta)$이다.
likelihood : 파라미터가 얼마나 데이터를 잘 확인하는지
우리가 설정한 가설(가설확률)이 얼마나 잘 맞는지
19.7.1.1. A Concrete Example
3군데 기울기가 0이 되는 지점, 최소2개(양끝)+최대 1개(0.7)부근
19.7.2. Numerical Optimization and the Negative Log-Likelihood
likelihood 최대화=log likelikhood 최대화=loss 최소화=negative log likelihood($-log(P(X|\theta)$)
negative log-likelihood를 쓰는 이유
- 수적인 편리함
- 미분 규칙을 단순화해서 적용할 수 있다
- 정보이론과 관련해서 entropy와도 관련있다
19.7.3. Maximum Likelihood for Continuous Variables
이산→연속으로 바꿀때
수식은 같고, 확률 밀도로 바꾸기만 한다.
epsilon을 작게 하는 이유는 확률 밀도함수에서 값을 얻어내기 위해서이다.=한 줄=하나의 직사각형
$\epsilon$은 $\theta$와 독립적. 그냥 추가적인 상수이다.
어차피 loglikelihood의 절대적 값이 중요한것이아니라 방향, 줄어드는 방향이 중요하기 때문에 $\epsilon$은 떨굴 수 있다
'수학' 카테고리의 다른 글
[공업수학] 1-2 Geometric Meaning of y'=f(x,y). Direction Fields, Euler's Method (0) | 2021.09.14 |
---|---|
[공업수학] 1-1 Basic Concepts. Modeling (0) | 2021.09.14 |