Skip to main content

One post tagged with "重参数技巧"

View All Tags

Gumbel Softmax

· 7 min read
PuQing
AI, CVer, Pythoner, Half-stack Developer

之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。

强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:

atπ(st)a_{t} \sim \pi(\cdot \mid s_{t})

深度强化学习将会预测其动作的分布参数 θ\theta,然后在计算奖励函数时输入 ata_{t},但是问题是该 ata_{t} 是从参数 θ\theta 下分布采样得到的。也就是说这个地方的梯度无法反传。