随机变量
随机变量 (Random Variable) X 是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特征。1
数学期望
在概率论和统计学中,数学期望 (mean)(或均值,亦简称期望 (Expectation, or expected value)) 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。
大数定律(This page is not published) 规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
方差 (Variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望 (即均值) 之间的偏离程度。统计中的方差 (样本方差) 是每个样本值与全体样本值的平均数之差的平方值的平均数。
设 X 为随机变量, 如果 E[X] 是随机变量 X 的期望值 (平均数 μ=E[X]),则随机变量 X 的方差为:
Var(X)=E[(X−μ)2]
方差也记作 σX2
样本的方差计算公式:
S2=∑(X−Xˉ)2/(n−1)
其中, S2 为样本方差, X 为变量,Xˉ 为样本均值, n 为样本例数。
^187511
标准差
标准差 (Standard Deviation) 是离均差平方的算术平均数 (即:方差) 的算术平方根,用 σ 表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。 见下图:
标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
协方差
协方差 (Covariance) 在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差定义为 Cov(X,Y)):
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]=E[XY]−E[X]E[Y]
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果 X 与 Y 是统计独立的,那么二者之间的协方差就是 0 ,因为两个独立的随机变量满足 E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果 X 与 Y 的协方差为 0 ,二者并不一定是统计独立的。
协方差为 0 的两个随机变量称为是不相关的 (当不一定是独立的)。
X 有 0.5 的概率取到 −1,0.5 的概率取到 +1.
而 Y 的取值取决于 X 的取值:X=−1,Y=0,如果 X=1,Y 有 0.5 的概率取到 −1,有 0.5 的概率取到 +1.
于是我们有:
E[X]=0E[Y]=0并且有:
E(XY)=(−1)⋅0⋅P(X=−1)+1⋅1⋅P(X=1,Y=1)+1⋅(−1)⋅P(X=1,Y=−1)=0从而:
Cov[X,Y]=E[XY]−E[X]E[Y]=0
于是,就构造出了一个协方差为零,但是两个随机变量不独立的例子。
协方差矩阵
在统计学与概率论中,协方差矩阵 (Covariance matrix) 的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。
设 X=(X1,X2,…,Xn)T 为 n 维随机变量,称矩阵
C=(cij)n×n=c11c21⋮cn1c12c22⋮cn2⋯⋯⋱⋯c1nc2n⋮cnn
为 n 维随机变量 X 的协方差矩阵,也记为 D(X),其中
cij=Cov[Xi,Xj],i,j=1,2,…,n
为 X 的分量 Xi 和 Xj 的协方差。并且对角线上的元素为各个随机变量的方差:
cii=Cov[Xi,Xi],i=1,2,…,n
协方差矩阵是对称 半正定(This page is not published) 矩阵。
Cov[X,Y]=Cov[Y,X]
xTCx=xTE[(X−μ)(X−μ)T]x=E[xT(X−μ)(X−μ)Tx]=E[((X−μ)Tx)T((X−μ)Tx)]=E((X−μ)Tx2)=σX2
其中的 σX=(X−μ)Tx
由于 σX2≥0,因 此 xTCx≥0,因此协方差矩阵 C 是半正定矩阵。
Gramian 矩阵特性
矩阵 A⊤A Gramian矩阵 具有以下性质:
- 是一个关键的矩阵结构,因为它在正交投影中起着重要的作用。协方差矩阵只是特例。
- A⊤A 是协方差矩阵—你可以定义多元正态分布,其中 A⊤A 是协方差矩阵,参见 这里。
- 这相当于讨论对称半正定矩阵 (symmetric positive semidefinite matrices, s.p.s.d.)—对于某些矩阵 A ,每个对称半正定矩阵都可以写成 A⊤A。
协方差矩阵分解
如果列向量的元素:
X=X1⋮Xn
是具有有限方差的随机变量,则协方差矩阵 Σ 是其 (i,j) 项为协方差的矩阵
Σij=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]=E[Xi,Xj]−E[X]E[Y]
其中 μi=E(Xi) 是向量 X 中第 i 项的期望值。换句话说,
Σ=E[(X1−μ1)(X1−μ1)]E[(X2−μ2)(X1−μ1)]⋮E[(Xn−μn)(X1−μ1)]E[(X1−μ1)(X2−μ2)]E[(X2−μ2)(X2−μ2)]⋮E[(Xn−μn)(X2−μ2)]⋯⋯⋱⋯E[(X1−μ1)(Xn−μn)]E[(X2−μ2)(Xn−μn)]⋮E[(Xn−μn)(Xn−μn)]
对于具有均值向量 μ 的随机向量 X∈Rn,更为简洁的定义 为 E((X−μ)(X−μ)⊤)
这个和 另一个形式 是一致的
Σ=E[(X−E[X])(X−E[X])⊤]
当数据均值为 0 时,协方差矩阵为 n−11XX⊤
因为协方差矩阵是 对称(This page is not published) 的,所以矩阵是 可对角化(This page is not published) 的,并且特征向量可以归一化,使得它们是正交的:
XX⊤=WDW⊤
另一方面,对数据矩阵 X 应用 SVD(This page is not published) 如下:
X=UΣV⊤
同时尝试从这个分解构造协方差矩阵得到
XX⊤=(UΣV⊤)(UΣV⊤)⊤XX⊤=(UΣV⊤)(VΣU⊤)
并且因为 V 是一个正交矩阵 (V⊤V=I) ,
XX⊤=UΣ2U⊤
相关资料