Blog | Stand Alone Complex

梯度下降

July 5, 2023 · 3 min read

AI, CVer, Pythoner, Half-stack Developer

假设我们想搜索光滑函数 $f(x)$ 的最小值，常见的方案是梯度下降（Gradient Descent），即按照如下格式进行迭代：

\begin{equation} \boldsymbol{x}_{t+1} = \boldsymbol{x}_{t}-\alpha \nabla_{\boldsymbol{x}_{t}} f\left(\boldsymbol{x}_{t}\right) \end{equation}

如果 $f(x)$ 关于 $x$ 的凸的，那么梯度下降通常能够找到最小值点；相反，则通常只能收敛到一个 “ 驻点 “——即梯度为 0 的点，比较理想的情况下能收敛到一个极小值（局部最小值）点。这里没有对极小值和最小值做严格区分，因为在深度学习中，即便是收敛到一个极小值点也是很难得的了。

Why?