: First-order iterative optimization algorithm for finding a local minimum of a differentiable function.

Stochastic gradient descent

스크린샷 2024-07-29 오후 4.54.16.png

learning rate와 gradient를 곱해서 빼준다.

Momentum

스크린샷 2024-07-29 오후 4.55.15.png

이전 batch에서 흐른 방향을 활용한다.

베타: 하이퍼파라미터로 momentum이다.

a라고 불리는 momentum이 적용된게 구해진다.

Nesterov Accelerated Gradient(NAG)

스크린샷 2024-07-29 오후 4.57.46.png

한번이동해본다. a에서 gradient계산한거 가지고 accumulation

https://golden.com/wiki/Nesterov_momentum

https://golden.com/wiki/Nesterov_momentum

momentum: 계속 가다보니까 local minimum에 converge를 못하는 경우가 생긴다.

NAG: local minima를 지나는게 아니라 지난 점에서 계산하기 때문에 minimum에 빨리 converge한다.

Adagrad

스크린샷 2024-07-29 오후 5.02.02.png

G: 지금까지 gradient가 얼마나 변했는지를 제곱해서 더한다.

많이 변한 parameter는 조금 변화시키고, 그 반대는 많이 변화시킨다.

문제는 G라고 불리는게 계속 커지기때문에 G가 무한대로 가면 학습이 점점 멈춰지는 현상이 생긴다.