在 高斯分布 中我们分别介绍了一维高斯分布情况,以及对于多元高斯分布表达式中的 马氏距离
进行了解释。这一节将主要介绍在多元高斯分布的常用定理进行介绍。
多元高斯的线性性质
已知:
X∼N(μ,Σ)Y=AX+b那么可以得到:
Y∼N(Aμ+b,AΣA⊤)这里 X∈Rp,A∈Rn×p,Y∈Rn
如果一个随机变量满足多元高斯分布,对这个随机变量做任意线性变换,得到的随机变量仍然满足多元高斯分布。
高斯边缘分布与联合分布
本节探究两个问题?
- 如果一个分布是联合高斯分布,从中任取一些随机变量得到的分布是否是高斯分布?
- 如果每一个随机变量的分布都是高斯分布,把他们组合在一起是否是联合高斯分布?
从联合分布到边缘概率
从联合高斯分布到边缘高斯分布是成立的
这句话的正常说法就是第一个问题
如果一个分布是联合高斯分布,从中任取一些随机变量得到的分布是否是高斯分布?
对于具有 p 个随机变量的联合高斯分布或者说多元高斯分布,证明其边缘概率还是高斯分布。
证明:
Xn1⋮Xnk=AX1⋮Xn
只要让第 n1 到 nk 个随机变量所在的位置是 1 即可 (相当于选择出来了) ,根据上面的推论 多元高斯的线性性质 可以得到,仍然为高斯分布。
从边缘分布到联合分布
但是反过来不一定成立。如果 X1,⋯,Xn 全部服从高斯分布,其 X1,⋯,Xn 的联合概率不一定是高斯分布。
X1∼N,X2∼N,⋯,Xn∼N⇏X=(X1⋯,Xn)⊤∼N
我们可以构造一个概率密度函数 f(x,y),这个函数的边缘分布是高斯,但是联合分布不是高斯分布
函数主体是高斯的,但是边缘有波动
f(x,y)=2π1exp(−2x2+y2)+g(x,y)我们希望这个 g(x,y) 的边缘分布都是 0,即
∫−∞+∞g(x,y)dx=∫−∞+∞g(x,y)dy=0如果我们增加这样一项
g(x,y)=sinxsiny可是概率密度函数不能是负的,所以需要修正
g(x,y)=1+sinxsiny因此,我们就可以得到一个例子
f(x,y)=2π1exp(−2x2+y2)+(1+sinxsiny)对 x 和对 y 的边缘分布都是高斯的,但是联合分布不是高斯分布
联合高斯分布判据
对于一个随机变量向量 X=(X1,⋯,Xn)⊤ 是多元随机变量满足一下条件之一 1
- 对于任意的线性组合 Y=a1X1+⋯+anXn 是正态分布,写成向量乘的形式就是对于任意的常向量 a∈Rn,随机变量 Y=aTX 是单变量高斯分布
- 有一个 μ∈Rn 的向量,以及一个对称、半正定的协方差矩阵 Σn×n,使得 X=(X1,⋯,Xn) 的 特征函数(This page is not published) 等于:
ρX(ω)=exp(iωTμ−21ωTΣω).
高斯分布的相关性与独立性
独立性和相关性
所谓两个随机变量不相关,就是两个随机变量的期望,等于其各自的期望的乘积
E[XY]=E[X]E[Y].
而 相关
实际上就是线性相关,也就是协方差或者 Pearson
的相关系数为 0
Cov[X,Y]=E[XY]−E[X]E[Y]=0
而两个随机变量独立,是他们的联合分布等于各自概率密度的乘积
fXY(x,y)=fX(x)fY(y)
独立一定不相关,但是不相关不一定独立。独立要求更高
这可能过于抽象,下面举个例子

随机变量 (X,Y) 均匀分布在单位圆 x2+y2=1 上
但是 X 和 Y 的 (线性) 相关系数是 0,直观的来说,因为是一个圆,用一个线性的线描述都是不合适的,因为是对称的。数学上:
E[X∣Y]=E[Y∣X]=0所以
E[X]=E[Y]=0并且
E[XY]=E[E[XY∣X]]=E[XE[Y∣X]]=0所以
Cov[X,Y]=E[XY]−E[X]E[Y]=0但是显然,X,Y 不是独立的。因为 X 的取值对 Y 是有影响的,反之亦然。
y=±1−x2
高斯分布的不相关和独立
也是不行的
联合高斯分布的不相关和独立
当两个随机变量是联合高斯分布的时候,二者如果不相关,则一定独立
{ Joint Gaussian Uncorrelated ⇒ independent
高斯条件分布
条件高斯分布的计算
假设 X 符合联合高斯分布,并且可以分成 Xa 和 Xb 两个联合分布,则 X 可以表示成
X=(XaXb)p→m→nm+n=pμ=(μaμb)Σ=(ΣaaΣbaΣabΣbb)
X∼N(μ,Σ)
由条件概率公式可知:
p(Xa,Xb)=p(Xb)p(Xa∣Xb)
下面分别求得 p(Xb),p(Xa∣Xb)
求解边缘概率密度
可以将 Xa 写为:
Xb=A(Om×mIn×n)(XaXb)
于是:
E[Xb]=(Om×mIn×n)(μaμb)=μb
而
Var[Xb]=(Om×mIn×n)(ΣaaΣbaΣabΣbb)(Om×mIn×n)=Σbb
所以,Xb∼N(μb,Σbb)
求解条件概率密度
对于条件概率有:
p(Xa∣Xb)=p(Xb)pX(XaXb)
即对 Xb 的条件概率等于 Xa,Xb 的联合分布除以 Xa 的边缘概率。
由于联合高斯分布中取出来一部分还是高斯分布,所以上面是高斯,下面还是高斯。最终得到的还是一个高斯分布。
p(Xb)pX(XaXb)=c2exp(−21(XbT−μbT)Σbb−1(Xb−μb))c1exp(−21(XaT−μaT,XbT−μbT)Σ−1(Xa−μa,Xb−μb))
其中
Σ=(ΣaaΣbaΣabΣbb)
指数相除部分可以转化为加减,所以指数部分可以写为:
−21(XaT−μaT,XbT−μbT)Σ−1(Xa−μa,Xb−μb)+21(XbT−μbT)Σbb−1(Xb−μb)
上式我们写成矩阵形式
==−21{([XaXb]−[μaμb])T[ΣaaΣbaΣabΣbb]−1([XaXb]−[μaμb])−(Xb−μb)TΣbb−1(Xb−μb)}−21{[Xa−μaXb−μb]T[ΣaaΣbaΣabΣbb]−1[Xa−μaXb−μb]−(Xb−μb)TΣbb−1(Xb−μb)}−21{[Xa−μaXb−μb]T[I−Σbb−1Σba0I][Σaa−ΣabΣbb−1Σba00Σbb][I0−ΣabΣbb−1I][Xa−μaXb−μb]−(Xb−μb)TΣbb−1(Xb−μb)}
这里有 ABCDE 矩阵连乘,我们转换成 (AB)C(DE),同时令 k~=k−μk
于是上式等于:
Φ=−21{[X~a−X~bΣbb−1ΣbaX~b]T[Σaa−ΣabΣbb−1Σba00Σbb][X~a−ΣabΣbb−1X~bX~b]−(X~bTΣbbX~b)}=−21{[X~a−X~bΣbb−1Σba]T(Σaa−ΣabΣbb−1Σba)[X~a−ΣabΣbb−1X~b]}
所以很容易看出当前的 p(Xa∣Xb) 服从 N(μa∣b,Σa∣b) 分布:
μa∣b=μa+ΣabΣbb−1(Xb−μb)Σa∣b=Σaa−ΣabΣbb−1Σba
可以看到的是其方差就等于 Σ 对于 Σaa 的舒尔补
求解线性模型
已知:p(x)=N(μ,Λ−1),p(y∣x)=N(Ax+b,L−1),求解:p(y),p(x∣y)
根据上文提到的 多元高斯的线性性质 ,我们可以设
y=Ax+b+ϵ
其中 ϵ∼N(0,L−1)
于是有边缘概率:
E[y]=E[Ax+b+ϵ]=E[Ax+b]+E[ϵ]=Aμ+bVar[y]=Var[Ax+b+ϵ]=Var[Ax]+Var[ϵ]=AΛ−1AT+L−1
于是有 p(y)∼N(Aμ+b,AΛ−1AT+L−1)
对于条件概率,我们有:
p(y∣x)=p(x)p(x,y)
这样我们就能和上面推导的 求解条件概率密度 联系上
这里我们假设 x 与 y 的协方差为 Δ,于是协方差矩阵可以写为:
z=(xy)∼N((μAμ+b),(Λ−1ΔΔAΛ−1AT+L−1))
其中的 Δ 是多少,我们并不知道,需要求解。
直接使用协方差的定义进行求解
Δ=Cov(x,y)=E[(x−E[x])(y−E[y])T]=E[(x−μ)(y−(Aμ+b))T]=E[(x−μ)(Ax+ϵ−Aμ)T]=E[(x−μ)(Ax−Aμ+ϵ)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵT]=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)ϵT]而由于 x−μ 和 ϵ 之间是独立的,那么 E[(x−μ)ϵT]=E[(x−μ)]E[ϵT]=0,所以我们有:
Δ=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T]⋅AT=Var[x]⋅AT=Λ−1AT
所以,x 和 y 之间的联合概率分布可表达为
z=(xy)∼N((μAμ+b),(Λ−1Λ−1ATΛ−1ATAΛ−1AT+L−1))
利用上面推导的公式,可以得到 p(x∣y)。结果如下:
E[x∣y]=μ+Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b)Var[x∣y]=Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1
相关资料