Maximum Likelihood Estimation(MLE) 极大似然估计,又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计,即所谓的参数估计
基本原理
对于一个常见的随机变量 P(x;θ),其中的 x 是表示随机变量,θ 是该概率分布模型的模型参数。在不同的模型下有各自的模型参数,比如 二项分布(This page is not published) p,正态分布(This page is not published) 的 μ,σ。
连续型随机变量 X 如果满足如下密度函数
f(x)=2πσ1e−2σ2(x−μ)2(μ∈R,σ>0)则称 X 服从参数为 (μ,σ2) 的正态分布,记为 X∼N(μ,σ2)
在一般情况下是给定概率分布的模型参数 θ,这此时的 P(x;θ) 便是在确定的参数下随机变量 x 的概率;但是反过来,如果随机变量 x 是已知的,则此时的 P(x;θ) 便是在不同的模型参数 θ 下给出定样本 x 的概率。显然在参数估计的过程中对 P(x;θ) 取后一种理解。
所谓参数估计,就是估计出概率分布中的模型参数 θ。为此会首先进行 n 次抽样检验,记该结果为 x1,x2,⋯,xn。我们需要根据这 n 个抽样结果,估计出概率分布的模型参数。这就是本文的主题 --MLE 极大似然估计。其依据的思想也很简单,即概率越大越有可能发生 (最大似然可以理解为最为相似,即最大的可能性)。即使得当前抽样 结果发生概率 L(θ) 最大的模型参数 θ,就是我们所需的参数估计值。即
θargmaxL(θ)=θargmaxL(x1,x2,…,xn;θ)=θargmaxP(x1,x2,…,xn;θ)
其中的 P(x1,x2,⋯,xn;θ) 根据我们上面的讲解是当确定 x1,x2,⋯,xn 时模型参数 θ 的概率,而 θargmax 则是使该概率最大的 θ 值。
如果还是有些抽象可以看看下面的栗子
🌰🌰🌰🌰🌰
不好意思,举错了
- xargminx2:表示使 x2 最小的 x 值,显然为 0
- θargmaxlogθsinθ+θ:显然我们需要先求导,然后寻找极值点,然后确定最大值。所用同样的,如下文
其中的 L(θ) 称为样本的似然函数。大多数的情况下,n 次抽样检查互相之间满足独立同分布 i.i.d,则有
θargmaxL(x1,x2,…,xn;θ)=θargmaxi=1∏nP(xi;θ)
独立同分布 independent and identically distributed,i.i.d.1
指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
所以 MLE 极大似然估计在参数估计过程中的基本步骤:
- 建立似然函数 L(θ)
- 对 L(θ) 取对数,得对数似然函数 lnL(θ) ^67c3dc
- lnL(θ) 对 θ 求导并令其为 0,计算极值点
- 模型参数 θ 得解
离散型概率分布
说了这么多,我们通过一个实际例子来展示如何具体的通过 MLE 来进行参数估计。这里我们以离散型概率分布中的二项分布为例
有一个不透明的袋子,里面装了黑、白两种颜色的球。记从袋子中摸到黑球、白球的概率分别为 p、1−p。假设某人进行了 10 次随机抽样,每次都是有放回的从袋子中摸出一个球,其抽样结果为 7 次黑球、3 次白球。试估计出概率 p 的值
首先建立似然函数 L(p)。显然该分布为二项分布,同时满足 i.i.d。所以我们可以取:
L(p)=L(x1,x2,…,x10;p)=i=1∏10P(xi;p)=p7⋅(1−p)3
Hold on. 这里得
p7⋅(1−p)3 是怎么出现的?
前面我们已经说了 P(x;θ) 具有两面性,可以理解为在参数 θ 下得到 x 的概率,具体来说,对于二项分布,如果已知参数 p,则取到黑色的概率为 p,取到白色的概率为 1−p,我想这是再自然不过的事情了;
因为所有的随机变量都是独立同分布的,所以都满足模型参数 p 下的二项分布。那我们假设此时的参数为 p(十个概率模型都是这个 p),则取十次的联合分布为连乘。就得到上面的式子。
对其取对数
lnL(p)=7⋅lnp+3⋅ln(1−p)
对其求导并令其为 0,有
(lnL(p))′=p7−1−p3=0
最后,求解上式可得 p=0.7
连续型概率分布
在连续型概率分布中,其不存在分布律,取而代之的是概率密度函数 f。则对于 n 个样本而言,可以写出连续型概率分布下的似然函数为
L(θ)=L(x1,x2,…,xn;θ)=i=1∏nf(xi;θ)
这里假设样本符合正态分布,则我们可以带入正态分布的概率密度函数:
L(μ,σ2)=i=1∏nf(xi;μ,σ2)=i=1∏n2π⋅σ1⋅e−2σ2(xi−μ)2=(2π⋅σ1)n⋅e−∑i=1n2σ2(xi−μ)2=(2π⋅σ2)−2n⋅e−∑i=1n2σ2(xi−μ)2
对其取对数
lnL(μ,σ2)=−2n⋅ln(2π⋅σ2)−i=1∑n2σ2(xi−μ)2=−2n[ln(2π)+ln(σ2)]−2σ21i=1∑n(xi−μ)2
分别对模型参数求偏导数并令其为 0,有
{∂μ∂lnL=σ21⋅∑i=1n(xi−μ)=0∂σ2∂lnL=−2σ2n+2σ41∑i=1n(xi−μ)2=0
最后,求解上式子,可得到正态分布的模型参数在 MLE 下的估计值:
{μ=n1∑i=1nxiσ2=n1∑i=1n(xi−μ)2
所以对于正态分布而言,其均值的极大似然估计量即是样本的均值;而其方差的极大似然估计量却是样本数据的总体方差值 (即分母为 n) ,而不是 样本数据的样本方差值 (即分母为 n−1)(这里为什么是n-1) ,故正态分布方差的极大似然估计量是有偏的。
在最后一步,对于多元函数求极值可能需要证明,根据 多元函数的极值 最大值与最小值 中的描述,其偏导为零只是必要条件,而并非充要条件。其应满足似然函数的 Hessan 矩阵为负正定。
相关资料