글의 목적 지난 글 동안 매개변수의 최적값을 찾아내기 위해서 손실함수를 미분하여 가장 낮은 경사를 따라 내려가는 경사하강법(Gradient Descent)을 사용했습니다. 이번에는 최적값을 찾아내기 위한 여러가지 Optimizer중 SGD에 대해서 알아보도록 하겠습니다. 여기서 Optimizer는 매개변수가 기울기를 이용해서 최적값을 찾아가는 방법을 통틀어서 말한 것입니다. 확률적 경사 하강법, SGD( Stochastic Gradient Decent ) 1. 개념 SGD의 개념은 기존의 GD를 알고있다면 이해하기 쉽습니다. GD는 위 사진처럼 매번 모든 트레이닝 데이터에 대한 손실함수를 구하고 기울기를 구하는 과정입니다. 이런 과정은 보다 정확하게 최적값을 찾을 수 있겠지만 현실적으로 트레이닝 데이터는..