Skip to main content

随机过程 - 基础知识

· 9 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

概率空间

定义

把随机试验每一个可能的结果称为一个样本点 (sample point),通常用 ω\omega 表示;所有可能的结果组成的集合称为样本空间 (sample space),通常用 Ω\Omega 表示

info

先后掷两次硬币这个随机试验可能出现的结果是 (正,反)(正,反)(反,正)(反,反)(\text{正,反})(\text{正,反})(\text{反,�正})(\text{反,反}),把这四个结果作为样本点构成样本空间

接着,我们对于样本空间中的一些元素感兴趣,比如,在上面的例子中可能感兴趣 两次出现的结果相同 这个事儿。它是指 (正,正)(反,反)(\text{正,正})(\text{反,反}) 这两个样本点之一出现。再比如 第二次不出现方面 这件事。它是指 (正,正)(反,正)(\text{正,正})(\text{反,正}) 则两个样本点之一出现。实际上,它们都是一些样本点的集合。

这里的给定一个点的集合 AA,是指对于任何一个点 ω\omega,都可以判断它是不是属于 AA。如果是,则记为 ωA\omega \in A;如果不是,则记为 ωA\omega \notin A。我们约定不包含任何点的集合也是点集,称为空集,记为 \emptyset。我们有如下概念。

定义

我们把事件 (event) 定义为样本点的某个集合。称为某事件发生当且仅当它所包含的某个样本点出现

我们还关心一些事件发生的概率。所谓的概率就是度量事件发生的可能性大小的量,实际上就是以某些事件为自变量的非负函数。

概括一下

建立随机试验的数学模型时,我们必须知道:

  1. 试验的样本空间 Ω\Omega. 它应该是一个非空的集合
  2. 可以 观测 到的或感兴趣的事件以及这些事件的运算得到的事件的全体,记为 F\mathcal{F}
  3. 这些事件的概率. 更进一步的,还需要知道 F\mathcal{F} 满足怎样的数学结构以及各事件的概率 PP 之间的关系。

当研究某个随机试验时,首先应该有我们感兴趣的事件,而且知道

  • 如果事件 AA 发生,则可以推知 AcA^{c} 不发生。也就是说,如果 AA 是我们感兴趣的事件,则 AcA^{c} 也应该是我们感兴趣的事件
  • 如果 An,n=1,2,A_{n},n=1,2,\dots 之一发生,则可以推知事件 n=1An\cup_{n=1}^{\infty}A_{n} 发生。也就是说,如果 An,n=1,2,A_{n},n=1,2,\dots 是我们感兴趣的事件,则 n=1An\cup_{n=1}^{\infty}A_{n} 也应该是我们感兴趣的事件。
定义

F\mathcal{F} 是由样本空间 Ω\Omega 的一些子集组成的集合,如果满足:

  1. F\mathcal{F} 非空;
  2. AFAcFA \in \mathcal{F} \Longrightarrow A^{c} \in\mathcal{F}
  3. AnF,n=1,2,n=1AnFA_{n}\in \mathcal{F},n=1,2,\cdots \Longrightarrow \cup_{n=1}^{\infty}A_{n} \in\mathcal{F}

则称 F\mathcal{F} 为事件域 (event field).

补充说明

所谓的 事件域 从直观上讲就是一个样本空间中某些子集及其运算 (并、交、差、对立) 结果而组成的集合类,对于离散样本空间,用起所有子集的全体就可构成所需的事件域。而对于连续样本空间,构造事件域就不那么简单了。如当样本空间上实数轴上的一个区间时,可以人为地构造无法测量其长度的子集,这样的子集常被称为不可测 (不可度量) 集,如果将这些不可测集也看成事件,那么这些事件将无概率可言,为了避免这种情况,我们没必要将连续样本空间的所有子集都看成是事件,只需将我们可 度量 的子集 (又称可测集) 看成是事件即可。

现在的问题是:我们应该对哪些子集感兴趣,换句话说,F\mathcal{F} 中应该有哪些元素?首先:F\mathcal{F} 应该包含 Ω\Omega\emptyset,其次应该保证事件经过定义的各种运算 (并、交、差、对立) 后仍然是事件,特别的,对可列并和可列交运算也有封闭性,总之,F\mathcal{F} 要对集合的运算都有封闭性。但是我们发现:

  • 交的运算可以通过并与对立来实现 (德摩根公式)
  • 差的运算可以通过对立与交来实现 (AB=ABcA-B=A B^{c})

这样一来,并与对立是最基本的运算,于是我们就有上述的 (2)(3) 点要求

而这里的事件域,是一种域,我们可以和 抽象代数 中的定义联系起来

F\mathcal{F} 又称为 σ\sigma 域或 σ\sigma 代数

又称 (Ω,F)(\Omega,\mathcal{F}) 为可测空间,在可测空间中才可定义概率。

同样的,我们有概率的公理化定义

定义

定义在事件域 F\mathcal{F} 上的一个集合函数 PP 称为概率(或概率测度),如果它满足

  1. 非负性:对于任意的 AF,P(A)>0A\in\mathcal{F},P(A)>0;
  2. 规范性:P(Ω)=1P(\Omega)=1;
  3. 可列可加性或完全可加性:若 AnF,n=1,2,A_{n}\in\mathcal{F},n=1,2,\dots 互不相容,则
P(n=1An)=n=1P(An)P(\cup_{n=1}^{\infty}A_{n})=\sum_{n=1}^{\infty}P(A_{n})

最后终于可以完整的定义概率空间

定义

称三元体 (Ω,F,P)(\Omega,\mathcal{F},P) 为概率空间,其中 Ω\Omega 是样本空间,F\mathcal{F} 是关于这个样本空间的一个事件域,PP 是定义在 F\mathcal{F} 上的概率

随机变量

在建立好一个随机实验的概率空间 (Ω,F,P)(\Omega,\mathcal{F},P) 之后,有些样本点根本不是一个数字,例如:抛硬币,对于一个复杂的试验,我们总是希望将试验结果 数字化,用一个数字 ξ\xi 来表示,也就是说 ξ\xi 是以样本空间为定义域取值于 R\mathbb{R} 的函数。但 ξ\xi 仅仅是一个函数是不够的,我们有则更强的条件,

定义

对于给定概率空间 (Ω,F,P)(\Omega,\mathcal{F},P)ξ\xi 是从 Ω\OmegaR\mathbb{R} 的函数,如果任意的 xRx \in \mathbb{R},都有 {ω:ξ(ω)x}F\left\{ \omega: \xi(\omega)\le x \right\}\in \mathcal{F},则称 ξ\xi随机变量

定义

ξ\xi 是概率空间 (Ω,F,P)(\Omega,\mathcal{F},P) 上的随机变量。任意的 AB(R),P(ω:ξ(ω)A)A \in \mathcal{B}(\mathbb{R}),P(\omega: \xi(\omega)\in A) 构成 B(R)\mathcal{B}(\mathbb{R}) 上的概率,称为 ξ\xi 的概率分布,简称分布

定义

ξ\xi 是概率空间 (Ω,F,P)(\Omega,\mathcal{F},P) 上的随机变量,称 xx 的函数

F(x)=P(ω:ξ(ω)x),xRF(x)=P(\omega: \xi(\omega)\le x),x \in \mathbb{R}

ξ\xi 的分布函数

定义

ϕ(θ)=Eeiθξ,θR\phi(\theta)=Ee^{i \theta \xi},\theta \in\mathbb{R}ξ\xi 的特征函数 (characteristic function)

定义

如果 Eesξ<Ee^{s\xi}<\infty,则称 M(s)=EesξM(s)=Ee^{s\xi}ξ\xi 的矩母函数 (moment generating function)

数学期望

ξ\xi(Ω,F,P)(\Omega,\mathcal{F},P) 上的随机变量,如果 Ωξ(ω)dP(ω)<\int_{\Omega} \left| \xi (\omega) \right| \mathrm{d}P(\omega)<\infty,则称 ξ\xi 的数学期存在,定义

Eξ=Ωξ(ω)dP(ω)\operatorname{E}\xi = \int_{\Omega}\xi(\omega) \, dP(\omega)

ξ\xi 的数学期望

定义 kk 阶矩

ξ\xi 为随机变量,kk 为正整数。如果一下数学期望都存在,则称

μk=E(ξk)\mu_{k}=\operatorname{E}(\xi^{k})

ξ\xikk 阶原点矩。称

νk=E(ξE(ξ))k\nu_{k}=\operatorname{E}(\xi-\operatorname{E}(\xi))^{k}

ξ\xikk 阶中心矩

显然,一阶原点矩就是数学期望,二阶中心矩就是方差。由于 ξk1ξk+1\left| \xi \right|^{k-1}\le\left| \xi \right|^{k}+1,故 kk 阶矩存在时,k1k-1 阶矩也存在

中心矩和原点矩之间一个简单的关系,事实上

νk=E(ξE(ξ))k=E(ξμ1)k=i=0k(ki)μi(μ1)ki,\nu_{k}=\operatorname{E}(\xi-\operatorname{E}(\xi))^{k}=\operatorname{E}\left(\xi-\mu_{1}\right)^{k}=\sum_{i=0}^{k}\left(\begin{array}{l} k \\ i \end{array}\right) \mu_{i}\left(-\mu_{1}\right)^{k-i},