Gumbel Softmax
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。
在 布朗运动与朗之万方程 中已经介绍过随机过程,而高斯过程 (Gaussian process) 是一个特殊的随机过程。在高斯过程中,连续输入空间中每个点都是与一个正态分布的随机变量相关联 [^1]。
从单变量高斯分布说起。在 单变量高斯分布 中我们已经写出了单变量高斯分布的公式,在这里重复一遍。
从生成手段上看,条件控制生成有两种:事后修改 (Classifier-Guidance) 和事前训练 (Classifier-Free)。
利用已经训练好的生成模型,通过一个分类器来调控生成过程,这就是事后修改的方法,因为从头到位训练一个生成模型训练成本太大了。而对于大公司来说,不缺算力,所以一般采用的是在训练过程中加入训练信号,达到更好的训练生成效果,这就是 Classifier-Free 方案。
生成模型最关键的就是对于 的建模,而条件生成就是以条件 作为条件输入,而这时的条件概率分布就可以写为 。为了重用已经训练好的无条件生成模型 ,我们利用贝叶斯定理:
概率图模型(Probabilistic Graphical Model, PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述多元随机变量之间条件独立性的概率模型,从而给研究高维空间的概率模型带来了很大的便捷性。
为什么讲条件独立性呢?
对于一个 维随机向量,其联合概率 为高维空间中的分布,一般难以直接建模。假设有
为离散随机变量并且有 个取值,在不作任何假设的情况下,则需要 个参数才能表示其概率分布。参数是指数级的,我们在多元高斯分布中也反复说明过 高维问题,贝叶斯分类器条件假设。