Skip to main content

梯度下降

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

假设我们想搜索光滑函数 f(x)f(x) 的最小值,常见的方案是梯度下降(Gradient Descent),即按照如下格式进行迭代:

xt+1=xtαxtf(xt)\begin{equation} \boldsymbol{x}_{t+1} = \boldsymbol{x}_{t}-\alpha \nabla_{\boldsymbol{x}_{t}} f\left(\boldsymbol{x}_{t}\right) \end{equation}

如果 f(x)f(x) 关于 xx 的凸的,那么梯度下降通常能够找到最小值点;相反,则通常只能收敛到一个 “ 驻点 “——即梯度为 0 的点,比较理想的情况下能收敛到一个极小值(局部最小值)点。这里没有对极小值和最小值做严格区分,因为在深度学习中,即便是收敛到一个极小值点也是很难得的了。

Why?