[Day13] DL Basic 3. Optimization -2 : Optimizers
Optimizers 1. Gradient Descent $$W_{t+1} \leftarrow W_{t} - \eta g_{t}$$ $g_{t}$ = gradient $\eta$ = step size = learning rate 2. Momentum 관성 흐르던 gradient 방향을 좀 더 이어갈 수 있도록 유지해준다. 그래서 gradient가 너무 자주 방향이 바뀌는 것을 방지할 수 있다. 현재의 gradient를 계산해서 그 다음 학습 때 이 gradient 정보를 전달한다. 그래서 batch가 흐르던 방향의 gradient 정보를 활용할 수 있다. $$a_{t+1} \leftarrow \beta a_{t}+g_{t}$$ $$W_{t+1} \leftarrow W_{t} - \eta a_{t+1}$$ ..