基于 MCMC 采样的文本生成
· 2 min read
在受限文本生成 (Constrained Text Generation) 任务中,我们需要根据一些特定的信息 来生成目标文本 ,用数学的话说就是 。但是我们无法得到足够多的语料对 去直接监督一个条件语言模型,而只能训练一个无条件的语言模型 ,但是我们可以设计一个指标来定量的描述 和 之间的联系。
举例来说,用关键词造句,那么 就是关键词的集合,我们可以定义示性函数:
在受限文本生成 (Constrained Text Generation) 任务中,我们需要根据一些特定的信息 来生成目标文本 ,用数学的话说就是 。但是我们无法得到足够多的语料对 去直接监督一个条件语言模型,而只能训练一个无条件的语言模型 ,但是我们可以设计一个指标来定量的描述 和 之间的联系。
举例来说,用关键词造句,那么 就是关键词的集合,我们可以定义示性函数:
在 马尔科夫及其有关的随机过程 中我们介绍过马尔科夫过程,其区别就是时间是否是离散的。整体分类可以见下面表格。
可数或有限的状态空间 | 连续或一般的状态空间 | |
---|---|---|
离散时间 | 在可数且有限状态空间下的马尔可夫链 | Harris chain (在一般状态空间下的马尔可夫链) |
连续时间 | Continuous-time Markov process | 任何具备马尔可夫性质的连续随机过程,例如维纳过程 |
在 布朗运动与朗之万方程 中已经介绍过随机过程,而高斯过程 (Gaussian process) 是一个特殊的随机过程。在高斯过程中,连续输入空间中每个点都是与一个正态分布的随机变量相关联 [^1]。
从单变量高斯分布说起。在 单变量高斯分布 中我们已经写出了单变量高斯分布的公式,在这里重复一遍。
在随机动力学中,马尔可夫 (Markov) 过程是一类特别重要的过程,这是因为:
把随机试验每一个可能的结果称为一个样本点 (sample point),通常用 表示;所有可能的结果组成的集合称为样本空间 (sample space),通常用 表示
先后掷两次硬币这个随机试验可能出现的结果是 ,把这四个结果作为样本点构成样本空间
设有概率空间 及参数集合 (指标集), 称随机变量族
为一随机过程或随机函数