Skip to main content

泰勒展开式与 Hessian 矩阵

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

一元函数情况

设一元函数 f(x)f(x) 在包含点 x0x_{0} 的开区间 (a,b)(a,b) 内具有 n+1n+1 阶导数,则当 x(a,b)x\in (a,b) 时,有

f(x)=f(x0)+f(x0)(xx0)+f(x0)2!(xx0)2++f(n)(x0)n!(xx0)n+Rn(x)f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2 !}\left(x-x_{0}\right)^{2}+\cdots+\frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n}+R_{n}(x)

其中的余项 (即误差)

雅可比(Jacobi)矩阵、海塞(Hessan)矩阵

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

一、雅可比(Jacobi)矩阵

对于 nn 个变元的 mm 个函数

y1=f1(x1,x2,,xn),y2=f2(x1,x2,,xn),ym=fm(x1,x2,,xn),}\left.\begin{array}{l} y_{1}=f_{1}\left(x_{1}, x_{2}, \cdots, x_{n}\right), \\ y_{2}=f_{2}\left(x_{1}, x_{2}, \cdots, x_{n}\right), \\ \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ y_{m}=f_{m}\left(x_{1}, x_{2}, \cdots, x_{n}\right), \end{array}\right\}

它定于于某一 nn 维区域 D\mathcal{D} 中,并且在这一区域中有关于一切变元的连续偏导数

多元函数的极值 最大值与最小值

· 4 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

多元函数的极值 - 必要条件

设函数

u=f(x1,x2,,xn)u = f(x_1,x_2,\cdots,x_n)

并且定义于区域 D\mathcal{D} 中,并且 (x10,x20,,xn0)(x_1^0,x_2^0,\cdots,x_n^0) 是区域上的内点。

tip

若点 (x10,x20,,xn0)(x_1^0,x_2^0,\cdots,x_n^0) 存在邻域

极大似然估计

· 9 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

Maximum Likelihood Estimation(MLE) 极大似然估计,又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计,即所谓的参数估计

基本原理

对于一个常见的随机变量 P(x;θ)P(x;\theta),其中的 xx 是表示随机变量,θ\theta 是该概率分布模型的模型参数。在不同的模型下有各自的模型参数,比如 二项分布(This page is not published) pp正态分布(This page is not published)μ,σ\mu,\sigma

正态分布

连续型随机变量 XX 如果满足如下密度函数

Nabla 算子与 Laplace 算子

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

Nabla 算子

Nabla 算子被定义为:

=(x,y,z)=exx+eyy+ezz=i=13eixi\begin{equation} \nabla = \left(\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}\right) = \vec{e}_{x} \frac{\partial}{\partial x}+\vec{e}_{y} \frac{\partial}{\partial y}+\vec{e}_{z} \frac{\partial}{\partial z} = \sum_{i = 1}^{3} \vec{e}_{i} \frac{\partial}{\partial x_{i}} \end{equation}
\nabla 作用于不同类型的量,得到的就是不同类型的新量:

Gramian 矩阵

· 2 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer
info

在线性代数中,内积空间中一族向量 {v1,,vn}\{\displaystyle v_{1},\dots ,v_{n}\} 的格拉姆矩阵(Gramian matrix、Gram matrix 或 Gramian)是内积的 埃尔米特矩阵,其元素由 Gij=vi,vj{\displaystyle G_{ij}=\langle v_{i},v_{j}\rangle } 给出。

性质

warning

格拉姆矩阵是 半正定(This page is not published) 的,反之每个半正定矩阵是某些向量的格拉姆矩阵。这组向量一般不是惟一的:任何 正交基 的格拉姆矩阵是单位矩阵。

理解协方差矩阵

· 9 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

随机变量

随机变量 (Random Variable) XX 是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特征。[^1]

数学期望

在概率论和统计学中,数学期望 (mean)(或均值,亦简称期望 (Expectation, or expected value)) 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。

Gaussian Random Fields

· 2 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

Spatiotemporal Model

假设我们能够测量在定义空间 MR3M \in \mathbb{R}^3 位置 xx 以及时间 tt 处的温度 YY.但是每次测量都会引入一些误差,表达为:

Y(x,t)=μ(x,t)+ϵ(x,t)Y(x,t) = \mu(x,t)+\epsilon(x,t)

这里的 uu 就是未知的温度函数,ϵ\epsilon 是测量误差。这个测量误差可以被建模成随机变量。所以对于每个点 (x,t)MR+(x,t)\in M \otimes \mathbb{R}^{+} 的测量误差是一个随机变量。随机变量可以写成集合:

梯度下降

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

假设我们想搜索光滑函数 f(x)f(x) 的最小值,常见的方案是梯度下降(Gradient Descent),即按照如下格式进行迭代:

xt+1=xtαxtf(xt)\begin{equation} \boldsymbol{x}_{t+1} = \boldsymbol{x}_{t}-\alpha \nabla_{\boldsymbol{x}_{t}} f\left(\boldsymbol{x}_{t}\right) \end{equation}

如果 f(x)f(x) 关于 xx 的凸的,那么梯度下降通常能够找到最小值点;相反,则通常只能收敛到一个 “ 驻点 “——即梯度为 0 的点,比较理想的情况下能收敛到一个极小值(局部最小值)点。这里没有对极小值和最小值做严格区分,因为在深度学习中,即便是收敛到一个极小值点也是很难得的了。

Why?