Skip to main content

MM Algorithm

· 4 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer
info

The MM algorithm is an iterative optimization method which exploits the convexity of a function in order to find its maxima or minima. The MM stands for “Majorize-Minimization” or “Minorize-Maximization”, depending on whether the desired optimization is a minimization or a maximization. Despite the name, MM itself is not an algorithm, but a description of how to construct an optimization algorithm.

MM 算法原理

MM 主要的思想是 非凸函数 太难优化了,我们就构造一个 “ 代理模型 ” ,通过迭代优化该函数达到优化的目的。

EM 算法 - 收敛性

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

Expectation Maximization(EM) 算法,该算法用于解决具有隐变量的混合模型的高斯和分布(例子可以见 三硬币模型)。在比较理想的情况中,我们可以直接得出我们求得的参数的解析解,比如: MLE:p(Xθ)\mathrm{MLE}:p(X\mid \theta)。我们想要求解的结果就是:

θMLE=argmaxθi=1Nlogp(xiθ)\theta_{MLE} = \arg \max_{\theta}\sum_{i=1}^N \log p(x_{i}\mid \theta)

其中,i=1Nlogp(xiθ)\sum_{i=1}^N\log p(x_{i}\mid \theta) 也被我们称为 对数似然函数。但是一旦引入隐变量,似然函数变为:

Schur Complement

· 3 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer
info

在线性代数和矩阵论中,分块矩阵的舒尔补定义如下:

M=[Ap×pBp×qCq×pDq×q](p+q)×(p+q)M= \begin{bmatrix} A_{p\times p} & B_{p\times q} \\ C_{q\times p} & D_{q\times q} \end{bmatrix}_{(p+q)\times(p+q)}

如果 DD可逆的,则矩阵 MM 对于块 DD 的舒尔补 p×pp\times p 矩阵可以定义为

多元高斯分布

· 13 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

高斯分布 中我们分别介绍了一维高斯分布情况,以及对于多元高斯分布表达式中的 马氏距离 进行了解释。这一节将主要介绍在多元高斯分布的常用定理进行介绍。

多元高斯的线性性质

tip

已知:

高斯分布

· 8 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

假设有数据:

X=(x1,x2,,xN)T=(x1Tx2TxNT)=(x11x12x1px21x32x2pxN1xN2xNp)N×PX=\left(x_{1}, x_{2}, \cdots, x_{N}\right)^{T}=\left(\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right)=\left(\begin{array}{cccc} x_{11} & x_{12} & \ldots & x_{1 p} \\ x_{21} & x_{32} & \ldots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N 1} & x_{N 2} & \ldots & x_{N p} \end{array}\right)_{N \times P}

其中 xiRpx_{i}\in \mathbb{R}^pxiN(μ,Σ)x_{i} \sim \mathcal{N}(\mu, \Sigma),参数为 θ=(μ,Σ)\theta=(\mu,\Sigma)

单变量高斯分布

对于单变量的高斯分布 N(μ,σ2)\mathcal{N}(\mu,\sigma^2),即 p=1p=1,其概率密度函数为

概率图

· 5 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

概率图模型(Probabilistic Graphical Model, PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述多元随机变量之间条件独立性的概率模型,从而给研究高维空间的概率模型带来了很大的便捷性。

为什么讲条件独立性呢?

对于一个 KK 维随机向量,其联合概率为高维空间中的分布,一般难以直接建模。假设有

X=[X1,X2,,XK]TX=\left[ X_{1},X_{2},\cdots,X_{K} \right]^{\mathbf{T}}

为离散随机变量并且有 mm 个取值,在不作任何假设的情况下,则需要 mK1m^K-1 个参数才能表示其概率分布。参数是指数级的,我们在多元高斯分布中也反复说明过 高维问题贝叶斯分类器条件假设

朴素贝叶斯分类器

· 6 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

假设我们有个特定的输入 xx,我们想要 Inference\text{Inference} 它的类别,我们可以通过 贝叶斯定理 中的后验概率最大的类作为 xx 类的输入。

P(Y=ckX=x)=P(X=xY=ck)P(Y=ck)kP(X=xY=ck)P(Y=ck)\begin{equation} P\left(Y=c_{k} \mid X=x\right)=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)} \label{1} \end{equation}

其中的 YY 即输入的类别。

贝叶斯定理

· 7 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

条件概率

条件概率一般记作 P(AB)P(A\mid B),意思是当 BB 事件发生时,AA 事件发生的概率,其定义为

P(AB)=P(AB)P(B)P(A\mid B)=\frac{P(A\cap B)}{P(B)}

其中 P(AB)P(A\cap B) 意思是 AABB 共同发生的概率,称为联合概率。也可以写作 P(A,B)P(A,B)P(AB)P(AB)

Mixture Model

· 5 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer
info

In statistics, a mixture model is a probabilistic model for representing the presence of subpopulations within an overall population, without requiring that an observed data set should identify the sub-population to which an individual observation belongs

Introduce

三硬币模型

假设有 3 枚硬币,分别记作 A,B,CA,B,C。这些硬币正面出现的概率分别是 π,p,q\pi,p,q。进行如下掷硬币实验:先掷硬币 AA,根据其结果选出硬币 BB,反面选硬币 CC;然后掷选出的硬币,掷硬币的结果,出现正面记作 1,出现反面记作 0;独立地重复 nn 次实验(这里,n=10n=10),观测结果如下:

Reparameterization Trick

· 5 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

Motivation

假设我们有个在参数 θ\theta 下的正态分布 qq。我们想要求解下面这样一个问题

minθEq[f(x)]\min_{\theta} E_{q}[f(x)]

其中 Eq[f(x)]E_{q}[f(x)] 的意思是求满足 qq 分布下的随机变量函数 f(x)f(x) 的均值,而最外层的 minθ\min_{\theta} 则是求使得该均值最小时θ\theta