梯度下降July 5, 2023 · 3 min readPuQingAI, CVer, Pythoner, Half-stack Developer假设我们想搜索光滑函数 f(x)f(x)f(x) 的最小值,常见的方案是梯度下降(Gradient Descent),即按照如下格式进行迭代: xt+1=xt−α∇xtf(xt)\begin{equation} \boldsymbol{x}_{t+1} = \boldsymbol{x}_{t}-\alpha \nabla_{\boldsymbol{x}_{t}} f\left(\boldsymbol{x}_{t}\right) \end{equation}xt+1=xt−α∇xtf(xt) 如果 f(x)f(x)f(x) 关于 xxx 的凸的,那么梯度下降通常能够找到最小值点;相反,则通常只能收敛到一个 “ 驻点 “——即梯度为 0 的点,比较理想的情况下能收敛到一个极小值(局部最小值)点。这里没有对极小值和最小值做严格区分,因为在深度学习中,即便是收敛到一个极小值点也是很难得的了。 Why?