[機器學習ML NOTE]SGD, Momentum, AdaGrad, Adam Optimizer

我在練習實作mnist手寫辨識的時候,發現學習優化器(Optimizer)有許多種,因此去讀了一下各種不同優化器的比較,做個筆記,順便練習用tensorflow把每種優化器的表現給呈現出來 這篇文我會用python的Tensorflow去實作以下簡單的方程式在不同Optimizer所呈現的學習情況 實作此簡易方程式,最小值為(x,y)=(0,0) SGD-準確率梯度下降法 (stochastic gradient decent) SGD 也就是最單純的gradient decent 方法,找出參數的梯度(利用微分的方法),往梯度的方向去更新參數(weight),即: SGD Weight update equation W 為權重(weight)參數,L 為損失函數(loss function), η 是學習率(learning rate), ∂L/∂W 是損失函數對參數的梯度(微分) Momentum Momentum

Read more