Gumbel Softmax
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。
在 布朗运动与朗之万方程 中已经介绍过随机过程,而高斯过程 (Gaussian process) 是一个特殊的随机过程。在高斯过程中,连续输入空间中每个点都是与一个正态分布的随机变量相关联 [^1]。
从单变量高斯分布说起。在 单变量高斯分布 中我们已经写出了单变量高斯分布的公式,在这里重复一遍。
从生成手段上看,条件控制生成有两种:事后修改 (Classifier-Guidance) 和事前训练 (Classifier-Free)。
利用已经训练好的生成模型,通过一个分类器来调控生成过程,这就是事后修改的方法,因为从头到位训练一个生成模型训练成本太大了。而对于大公司来说,不缺算力,所以一般采用的是在训练过程中加入训练信号,达到更好的训练生成效果,这就是 Classifier-Free 方案。
生成模型最关键的就是对于 的建模,而条件生成就是以条件 作为条件输入,而这时的条件概率分布就可以写为 。为了重用已经训练好的无条件生成模型 ,我们利用贝叶斯定理: