: First-order iterative optimization algorithm for finding a local minimum of a differentiable function.

learning rate와 gradient를 곱해서 빼준다.

이전 batch에서 흐른 방향을 활용한다.
베타: 하이퍼파라미터로 momentum이다.
a라고 불리는 momentum이 적용된게 구해진다.

한번이동해본다. a에서 gradient계산한거 가지고 accumulation

https://golden.com/wiki/Nesterov_momentum
momentum: 계속 가다보니까 local minimum에 converge를 못하는 경우가 생긴다.
NAG: local minima를 지나는게 아니라 지난 점에서 계산하기 때문에 minimum에 빨리 converge한다.

G: 지금까지 gradient가 얼마나 변했는지를 제곱해서 더한다.
많이 변한 parameter는 조금 변화시키고, 그 반대는 많이 변화시킨다.
문제는 G라고 불리는게 계속 커지기때문에 G가 무한대로 가면 학습이 점점 멈춰지는 현상이 생긴다.