理解协方差矩阵

July 22, 2023 · 10 min read

AI, CVer, Pythoner, Half-stack Developer

随机变量

随机变量 (Random Variable) $X$ 是一个映射，把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特征。¹

数学期望

在概率论和统计学中，数学期望 (mean)(或均值，亦简称期望 (Expectation, or expected value)) 是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。

大数定律(This page is not published) 规定，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值。

方差

info

方差 (Variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望 (即均值) 之间的偏离程度。统计中的方差 (样本方差) 是每个样本值与全体样本值的平均数之差的平方值的平均数。

设 $X$ 为随机变量，如果 $E[X]$ 是随机变量 $X$ 的期望值 (平均数 $\mu =E[X]$ )，则随机变量 $X$ 的方差为：

\operatorname{Var}(X)=\mathrm{E}\left[(X-\mu)^{2}\right]

方差也记作 $\sigma^2_X$

样本的方差计算公式：

S^{2}=\sum (X-\bar{X})^{2} /(n-1)

其中， $S^2$ 为样本方差， $X$ 为变量， $\bar{X}$ 为样本均值， $n$ 为样本例数。

这里为什么是除以

n-1

Why divide the sample variance by N-1? - Computer vision for dummies

^187511

标准差

标准差 (Standard Deviation) 是离均差平方的算术平均数 (即：方差) 的算术平方根，用 $\sigma$ 表示。标准差也被称为标准偏差，或者实验标准差，在概率统计中最常使用作为统计分布程度上的测量依据。见下图：

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。

协方差

info

协方差 (Covariance) 在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

期望值分别为 $\mathrm{E}[X]$ 与 $\mathrm{E}[Y]$ 的两个实随机变量 $X$ 与 $Y$ 之间的协方差定义为 $\operatorname{Cov}(X, Y))$ ：

\begin{aligned} \operatorname{Cov}(X, Y)= & \mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])] \\ & =\mathrm{E}[X Y]-2 \mathrm{E}[Y] \mathrm{E}[X]+\mathrm{E}[X] \mathrm{E}[Y] \\ & =\mathrm{E}[X Y]-\mathrm{E}[X] \mathrm{E}[Y]=\mathrm{E}[X Y]-\mathrm{E}[X] \mathrm{E}[Y] \end{aligned}

协方差表示的是两个变量总体误差的期望。

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

如果 $X$ 与 $Y$ 是统计独立的，那么二者之间的协方差就是 $0$ ，因为两个独立的随机变量满足 $\mathrm{E}[XY]$ = $\mathrm{E}[X]\mathrm{E}[Y]$ 。但是，反过来并不成立。即如果 $X$ 与 $Y$ 的协方差为 $0$ ，二者并不一定是统计独立的。

协方差为 $0$ 的两个随机变量称为是不相关的 (当不一定是独立的)。

举个栗子

$X$ 有 $0.5$ 的概率取到 $-1$ ， $0.5$ 的概率取到 $+1$ . 而 $Y$ 的取值取决于 $X$ 的取值： $X=-1$ ， $Y=0$ ，如果 $X=1$ ， $Y$ 有 $0.5$ 的概率取到 $-1$ ，有 $0.5$ 的概率取到 $+1$ . 于是我们有：

\begin{align} \mathrm{E}[X]=0\\ \mathrm{E}[Y]=0 \end{align}

并且有：

\begin{array}{l} E(X Y)=(-1) \cdot 0 \cdot P(X=-1) \\ +1 \cdot 1 \cdot P(X=1, Y=1) \\ +1 \cdot(-1) \cdot P(X=1, Y=-1)\\ =0 \end{array}

从而：

\operatorname{Cov}[X,Y]=\mathrm{E}[XY]-\mathrm{E}[X]\mathrm{E}[Y]=0

于是，就构造出了一个协方差为零，但是两个随机变量不独立的例子。

协方差矩阵

info

在统计学与概率论中，协方差矩阵 (Covariance matrix) 的每个元素是各个向量元素之间的协方差，是从标量随机变量到高维度随机向量的自然推广。

设 $X=\left(X_{1}, X_{2}, \ldots, X_{n}\right)^{\mathrm{T}}$ 为 $n$ 维随机变量，称矩阵

C=\left(c_{i j}\right)_{n \times n}=\left(\begin{array}{cccc} c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n} \end{array}\right)

为 $n$ 维随机变量 $X$ 的协方差矩阵，也记为 $D(X)$ ，其中

c_{i j}=\operatorname{Cov}\left[X_{i}, X_{j}\right], \quad i, j=1,2, \ldots, n

为 $X$ 的分量 $X_i$ 和 $X_j$ 的协方差。并且对角线上的元素为各个随机变量的方差：

c_{i i}=\operatorname{Cov}\left[X_{i}, X_{i}\right], \quad i=1,2, \ldots, n

协方差矩阵是对称半正定(This page is not published) 矩阵。

对称性可以由定义可知

$\operatorname{Cov}[X,Y]=\operatorname{Cov}[Y,X]$

半正定特性证明

\begin{array}{l} \boldsymbol{x}^{\mathrm{T}} C \boldsymbol{x}=\boldsymbol{x}^{\mathrm{T}} \mathrm{E}\left[(X-\mu)(X-\mu)^{\mathrm{T}}\right] \boldsymbol{x}\\ =\mathrm{E}\left[\boldsymbol{x}^{\mathrm{T}}(X-\mu)(X-\mu)^{\mathrm{T}} \boldsymbol{x}\right] \\ =\mathrm{E}\left[\left((X-\mu)^{\mathrm{T}} \boldsymbol{x}\right)^{\mathrm{T}}\left((X-\mu)^{\mathrm{T}} \boldsymbol{x}\right)\right]\\ =\mathrm{E}\left(\left\|(X-\mu)^{\mathrm{T}} \boldsymbol{x}\right\|^{2}\right)=\sigma_{X}^{2} \end{array}

其中的 $\sigma_{X}=(X-\mu)^{\mathrm{T}} \boldsymbol{x}$

由于 $\sigma^2_X\ge 0$ ，因此 $\boldsymbol{x}^{\mathrm{T}} C \boldsymbol{x}\ge 0$ ，因此协方差矩阵 $C$ 是半正定矩阵。

Gramian 矩阵特性

矩阵 $A^\top A$ Gramian矩阵具有以下性质：

danger

是一个关键的矩阵结构，因为它在正交投影中起着重要的作用。协方差矩阵只是特例。
$A^\top A$ 是协方差矩阵—你可以定义多元正态分布，其中 $A^\top A$ 是协方差矩阵，参见这里。
这相当于讨论对称半正定矩阵 (symmetric positive semidefinite matrices, s.p.s.d.)—对于某些矩阵 $A$ ，每个对称半正定矩阵都可以写成 $A^\top A$ 。

协方差矩阵分解

如果列向量的元素：

\mathbf{X}=\left[\begin{array}{c} X_{1} \\ \vdots \\ X_{n} \end{array}\right]

是具有有限方差的随机变量，则协方差矩阵 $\Sigma$ 是其 $(i,j)$ 项为协方差的矩阵

\Sigma_{i j}=\operatorname{Cov}\left(X_{i}, X_{j}\right)=E\left[\left(X_{i}-\mu_{i}\right)\left(X_{j}-\mu_{j}\right)\right]=E\left[X_{i}, X_{j}\right]-E[X] E[Y]

其中 $\mu_{i}=E\left(X_{i}\right)$ 是向量 $X$ 中第 $i$ 项的期望值。换句话说，

\Sigma=\left[\begin{array}{cccc} E\left[\left(X_{1}-\mu_{1}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{1}-\mu_{1}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{1}-\mu_{1}\right)\left(X_{n}-\mu_{n}\right)\right] \\ E\left[\left(X_{2}-\mu_{2}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{2}-\mu_{2}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{2}-\mu_{2}\right)\left(X_{n}-\mu_{n}\right)\right] \\ \vdots & \vdots & \ddots & \vdots \\ E\left[\left(X_{n}-\mu_{n}\right)\left(X_{1}-\mu_{1}\right)\right] & E\left[\left(X_{n}-\mu_{n}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & E\left[\left(X_{n}-\mu_{n}\right)\left(X_{n}-\mu_{n}\right)\right] \end{array}\right]

对于具有均值向量 $\mu$ 的随机向量 $\boldsymbol{X}\in\mathbb{R}^n$ ，更为简洁的定义为 $\mathbb{E}\left((\mathbf{X}-\mu)(\mathbf{X}-\mu)^{\top}\right)$

这个和另一个形式是一致的

\Sigma=E\left[(X-E[X])(X-E[X])^{\top}\right]

当数据均值为 $0$ 时，协方差矩阵为 $\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top$

因为协方差矩阵是对称(This page is not published) 的，所以矩阵是可对角化(This page is not published) 的，并且特征向量可以归一化，使得它们是正交的：

\mathbf{X} \mathbf{X}^{\top}=\mathbf{W D W}^{\top}

另一方面，对数据矩阵 $\boldsymbol{X}$ 应用 SVD(This page is not published) 如下：

\boldsymbol{X}=\boldsymbol{U}\Sigma\boldsymbol{V}^\top

同时尝试从这个分解构造协方差矩阵得到

\begin{array}{l} \mathbf{X} \mathbf{X}^{\top}=\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)^{\top} \\ \mathbf{X} \mathbf{X}^{\top}=\left(\mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}\right)\left(\mathbf{V} \boldsymbol{\Sigma} \mathbf{U}^{\top}\right) \end{array}

并且因为 $\mathbf{V}$ 是一个正交矩阵 $\left(\mathbf{V}^{\top} \mathbf{V}=\mathbf{I}\right)$ ，

\boldsymbol{X}\boldsymbol{X}^\top = \boldsymbol{U}\Sigma^2\boldsymbol{U}^\top

随机变量​

数学期望​

方差​

标准差​

协方差​

协方差矩阵​

Gramian 矩阵特性​

协方差矩阵分解​

相关资料​

Footnotes​

随机变量

数学期望

方差

标准差

协方差

协方差矩阵

Gramian 矩阵特性

协方差矩阵分解

相关资料

Footnotes