One post tagged with "重参数技巧"

Gumbel Softmax

September 8, 2024 · 7 min read

AI, CVer, Pythoner, Half-stack Developer

之前已经写过 Reparameterization trick，这里主要是想重新讲讲整个重参数化的逻辑。

在强化学习-基本组件中说强化学习会将动作建模一个随机变量。即：

a_{t} \sim \pi(\cdot \mid s_{t})

深度强化学习将会预测其动作的分布参数 $\theta$ ，然后在计算奖励函数时输入 $a_{t}$ ，但是问题是该 $a_{t}$ 是从参数 $\theta$ 下分布采样得到的。也就是说这个地方的梯度无法反传。