Skip to main content

理解协方差矩阵

· 9 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

随机变量

随机变量 (Random Variable) XX 是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特征。1

数学期望

在概率论和统计学中,数学期望 (mean)(或均值,亦简称期望 (Expectation, or expected value)) 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。

大数定律(This page is not published) 规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。

方差

info

方差 (Variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望 (即均值) 之间的偏离程度。统计中的方差 (样本方差) 是每个样本值与全体样本值的平均数之差的平方值的平均数。

设 XX 为随机变量, 如果 E[X]E[X] 是随机变量 XX 的期望值 (平均数 μ=E[X]\mu =E[X]),则随机变量 XX 的方差为:

Var(X)=E[(Xμ)2]\operatorname{Var}(X)=\mathrm{E}\left[(X-\mu)^{2}\right]

方差也记作 σX2\sigma^2_X

样本的方差计算公式:

S2=(XXˉ)2/(n1)S^{2}=\sum (X-\bar{X})^{2} /(n-1)

其中, S2S^2 为样本方差, XX 为变量,Xˉ\bar{X} 为样本均值, nn 为样本例数。

^187511

标准差

标准差 (Standard Deviation) 是离均差平方的算术平均数 (即:方差) 的算术平方根,用 σ\sigma 表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。 见下图:

image.png

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

协方差

info

协方差 (Covariance) 在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况

期望值分别为 E[X]\mathrm{E}[X] 与 E[Y]\mathrm{E}[Y] 的两个实随机变量 XX 与 YY 之间的协方差定义为 Cov(X,Y))\operatorname{Cov}(X, Y))

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]2E[Y]E[X]+E[X]E[Y]=E[XY]E[X]E[Y]=E[XY]E[X]E[Y]\begin{aligned} \operatorname{Cov}(X, Y)= & \mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])] \\ & =\mathrm{E}[X Y]-2 \mathrm{E}[Y] \mathrm{E}[X]+\mathrm{E}[X] \mathrm{E}[Y] \\ & =\mathrm{E}[X Y]-\mathrm{E}[X] \mathrm{E}[Y]=\mathrm{E}[X Y]-\mathrm{E}[X] \mathrm{E}[Y] \end{aligned}
协方差表示的是两个变量总体误差的期望。

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果 XX 与 YY 是统计独立的,那么二者之间的协方差就是 00 ,因为两个独立的随机变量满足 E[XY]\mathrm{E}[XY]=E[X]E[Y]\mathrm{E}[X]\mathrm{E}[Y]。但是,反过来并不成立。即如果 XX 与 YY 的协方差为 00 ,二者并不一定是统计独立的。

协方差为 00 的两个随机变量称为是不相关的 (当不一定是独立的)。

举个栗子

XX0.50.5 的概率取到 1-10.50.5 的概率取到 +1+1. 而 YY 的取值取决于 XX 的取值:X=1X=-1Y=0Y=0,如果 X=1X=1YY0.50.5 的概率取到 1-1,有 0.50.5 的概率取到 +1+1. 于是我们有:

E[X]=0E[Y]=0\begin{align} \mathrm{E}[X]=0\\ \mathrm{E}[Y]=0 \end{align}

并且有:

E(XY)=(1)0P(X=1)+11P(X=1,Y=1)+1(1)P(X=1,Y=1)=0\begin{array}{l} E(X Y)=(-1) \cdot 0 \cdot P(X=-1) \\ +1 \cdot 1 \cdot P(X=1, Y=1) \\ +1 \cdot(-1) \cdot P(X=1, Y=-1)\\ =0 \end{array}

从而:

Cov[X,Y]=E[XY]E[X]E[Y]=0\operatorname{Cov}[X,Y]=\mathrm{E}[XY]-\mathrm{E}[X]\mathrm{E}[Y]=0

于是,就构造出了一个协方差为零,但是两个随机变量不独立的例子

协方差矩阵

info

在统计学与概率论中,协方差矩阵 (Covariance matrix) 的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

X=(X1,X2,,Xn)TX=\left(X_{1}, X_{2}, \ldots, X_{n}\right)^{\mathrm{T}}nn 维随机变量,称矩阵

C=(cij)n×n=(c11c12c1nc21c22c2ncn1cn2cnn)C=\left(c_{i j}\right)_{n \times n}=\left(\begin{array}{cccc} c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n} \end{array}\right)

为 nn 维随机变量 XX 的协方差矩阵,也记为 D(X)D(X),其中

cij=Cov[Xi,Xj],i,j=1,2,,nc_{i j}=\operatorname{Cov}\left[X_{i}, X_{j}\right], \quad i, j=1,2, \ldots, n

为 XX 的分量 XiX_i 和 XjX_j 的协方差。并且对角线上的元素为各个随机变量的方差:

cii=Cov[Xi,Xi],i=1,2,,nc_{i i}=\operatorname{Cov}\left[X_{i}, X_{i}\right], \quad i=1,2, \ldots, n

协方差矩阵是对称 半正定(This page is not published) 矩阵。

对称性可以由定义可知

Cov[X,Y]=Cov[Y,X]\operatorname{Cov}[X,Y]=\operatorname{Cov}[Y,X]

半正定特性证明
xTCx=xTE[(Xμ)(Xμ)T]x=E[xT(Xμ)(Xμ)Tx]=E[((Xμ)Tx)T((Xμ)Tx)]=E((Xμ)Tx2)=σX2\begin{array}{l} \boldsymbol{x}^{\mathrm{T}} C \boldsymbol{x}=\boldsymbol{x}^{\mathrm{T}} \mathrm{E}\left[(X-\mu)(X-\mu)^{\mathrm{T}}\right] \boldsymbol{x}\\ =\mathrm{E}\left[\boldsymbol{x}^{\mathrm{T}}(X-\mu)(X-\mu)^{\mathrm{T}} \boldsymbol{x}\right] \\ =\mathrm{E}\left[\left((X-\mu)^{\mathrm{T}} \boldsymbol{x}\right)^{\mathrm{T}}\left((X-\mu)^{\mathrm{T}} \boldsymbol{x}\right)\right]\\ =\mathrm{E}\left(\left\|(X-\mu)^{\mathrm{T}} \boldsymbol{x}\right\|^{2}\right)=\sigma_{X}^{2} \end{array}

其中的 σX=(Xμ)Tx\sigma_{X}=(X-\mu)^{\mathrm{T}} \boldsymbol{x}

由于 σX20\sigma^2_X\ge 0,因此 xTCx0\boldsymbol{x}^{\mathrm{T}} C \boldsymbol{x}\ge 0,因此协方差矩阵 CC 是半正定矩阵。

Gramian 矩阵特性

矩阵 AAA^\top A Gramian矩阵 具有以下性质:

danger
  • 是一个关键的矩阵结构,因为它在正交投影中起着重要的作用。协方差矩阵只是特例。
  • AAA^\top A 是协方差矩阵—你可以定义多元正态分布,其中 AAA^\top A 是协方差矩阵,参见 这里
  • 这相当于讨论对称半正定矩阵 (symmetric positive semidefinite matrices, s.p.s.d.)—对于某些矩阵 AA ,每个对称半正定矩阵都可以写成 AAA^\top A

协方差矩阵分解

如果列向量的元素:

X=[X1Xn]\mathbf{X}=\left[\begin{array}{c} X_{1} \\ \vdots \\ X_{n} \end{array}\right]

是具有有限方差的随机变量,则协方差矩阵 Σ\Sigma 是其 (i,j)(i,j) 项为协方差的矩阵

Σij=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)]=E[Xi,Xj]E[X]E[Y]\Sigma_{i j}=\operatorname{Cov}\left(X_{i}, X_{j}\right)=E\left[\left(X_{i}-\mu_{i}\right)\left(X_{j}-\mu_{j}\right)\right]=E\left[X_{i}, X_{j}\right]-E[X] E[Y]

其中 μi=E(Xi)\mu_{i}=E\left(X_{i}\right) 是向量 XX 中第 ii 项的期望值。换句话说,

Σ=[E[(X1μ1)(X1μ1)]E[(X1μ1)(X2μ2)]E[(X1μ1)(Xnμn)]E[(X2μ2)(X1μ1)]E[(X2μ2)(X2μ2)]E[(X2μ2)(Xnμn)]E[(Xnμn)(X1μ1)]E[(Xnμn)(X2μ2)]E[(Xnμn)(Xnμn)]]\Sigma=\left[\begin{array}{cccc} E\left[\left(X_{1}-\mu_{1}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{1}-\mu_{1}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{1}-\mu_{1}\right)\left(X_{n}-\mu_{n}\right)\right] \\ E\left[\left(X_{2}-\mu_{2}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{2}-\mu_{2}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{2}-\mu_{2}\right)\left(X_{n}-\mu_{n}\right)\right] \\ \vdots & \vdots & \ddots & \vdots \\ E\left[\left(X_{n}-\mu_{n}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{n}-\mu_{n}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{n}-\mu_{n}\right)\left(X_{n}-\mu_{n}\right)\right] \end{array}\right]

对于具有均值向量 μ\mu 的随机向量 XRn\boldsymbol{X}\in\mathbb{R}^n更为简洁的定义E((Xμ)(Xμ))\mathbb{E}\left((\mathbf{X}-\mu)(\mathbf{X}-\mu)^{\top}\right)

这个和 另一个形式 是一致的

Σ=E[(XE[X])(XE[X])]\Sigma=E\left[(X-E[X])(X-E[X])^{\top}\right]

当数据均值为 00 时,协方差矩阵为 1n1XX\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top

因为协方差矩阵是 对称(This page is not published) 的,所以矩阵是 可对角化(This page is not published) 的,并且特征向量可以归一化,使得它们是正交的:

XX=WDW\mathbf{X} \mathbf{X}^{\top}=\mathbf{W D W}^{\top}

另一方面,对数据矩阵 X\boldsymbol{X} 应用 SVD(This page is not published) 如下:

X=UΣV\boldsymbol{X}=\boldsymbol{U}\Sigma\boldsymbol{V}^\top

同时尝试从这个分解构造协方差矩阵得到

XX=(UΣV)(UΣV)XX=(UΣV)(VΣU)\begin{array}{l} \mathbf{X} \mathbf{X}^{\top}=\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)^{\top} \\ \mathbf{X} \mathbf{X}^{\top}=\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)\left(\mathbf{V} \boldsymbol{\Sigma} \mathbf{U}^{\top}\right) \end{array}

并且因为 V\mathbf{V} 是一个正交矩阵 (VV=I)\left(\mathbf{V}^{\top} \mathbf{V}=\mathbf{I}\right)

XX=UΣ2U\boldsymbol{X}\boldsymbol{X}^\top = \boldsymbol{U}\Sigma^2\boldsymbol{U}^\top

相关资料

Footnotes

  1. 形象理解协方差矩阵 - 知乎