Gumbel Softmax
· 7 min read
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。
之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
深度强化学习将会预测其动作的分布参数 ,然后在计算奖励函数时输入 ,但是问题是该 是从参数 下分布采样得到的。也就是说这个地方的梯度无法反传。