之前已经写过 Reparameterization trick,这里主要是想重新讲讲整个重参数化的逻辑。
在 强化学习-基本组件 中说强化学习会将动作建模一个随机变量。即:
at∼π(⋅∣st)
深度强化学习将会预测其动作的分布参数 θ,然后在计算奖励函数时输入 at,但是问题是该 at 是从参数 θ 下分布采样得到的。也就是说这个地方的梯度无法反传。
在 SF估计 中说过我们可以通过对数技巧,将期望的导数转化为导数的梯度,即:
∇θEq[f(x)]=Eq[f(x)∇θlogqθ(x)]
该式其实是利用采样点估计目标点的梯度,之后在 Reparameterization trick#Trick 中介绍了重参数方法,将上述需要采样的操作变形为 采样+变换 的操作,这样分布参数 θ 便通过变换的操作参与了运算,所以可以求导数。
而对于那些需要使用采样得到的中间隐变量,比如 VAE 的采样,然后解码同样需要重参数操作,特别的这里可以根据随机变量的类型区分重参数的方法,对于连续随机变量,我们添加一个变换即可完成,对于离散变量,就引出了这篇 《CATEGORICAL REPARAMETERIZATION WITH GUMBEL-SOFTMAX》
对于离散随机变量,深度网络输出的逻辑值 oi 表示了序号 i 被选中的概率,当然这可以视作为一个 k 分类模型,还是同样的问题,如果我们不需要保证这里的随机变量是采样得到的,我们可以直接使用软化后的 argmax 来使得此处可导 (可见 不可导函数的可导逼近),但是为了保证该变量具有随机性,我们还是需要重参数化进行保证。 1
iargmax(logpi−log(−logεi))i=1k,εi∼U[0,1]
这被称作为Gumbel-Max Trick,这个可以看起来没有连续随机变量那样美观,这是因为没有一些前置知识。
累计分布函数与逆变换采样 2
^7ade6d
设 X 为连续型随机变量, 取值于区间 (a,b) (可包括 ±∞ 和端点), X 的密度在 (a,b) 上取正值, X 的分布函数为 F(x), U∼U(0,1), 则 Y=F−1(U)∼F(⋅) 。3
这告诉我们使用一个均匀分布和累积分布函数就可以得到任意形式的分布。
服从指数分布 Exp(λ)(λ>0) 的随机变量 X 的概率密度函数和累积分布函数为:
p(x)F(x)=λe−λx,x>0=1−e−λx,x>0反函数为
F−1(u)=−λ−1log(1−u).所以 U∼U(0,1) 时 X=−λ−1log(1−U) 服从 Exp(λ) 。因为 1−U 与 U 同分布, 所以取 X=−λ−1logU 也服从 Exp(λ) 。
定理 6.2 设 X 为离散型随机变量, 取值于集合 {a1,a2,…}(a1<a2<…),F(x) 为 X 的分布函数, U∼U(0,1) , 根据 U 的值定义随机变量 Y 为
Y=ai 当且仅当 F(ai−1)<U≤F(ai),i=1,2,…(定义 F(a0)=0) 则 Y∼F(y) 。
例 6.4 (几何分布随机数) 设随机变量 X 表示在成功概率为 p(0<p<1) 的独立重复试验中首次成功所需的试验次数, 则 X 的概率分布为
P(X=k)=pqk−1,k=1,2,…,(q=1−p)称 X 服从几何分布, 记为 X∼Geom(p).
设 U∼U(0,1), 注意到
F(k)=P(X≤k)=P( 在前 k 次试验中至少 − 次成功 )=1−P( 前 k 次试验都失败 )=1−qk,k=1,2,…利用上述定理,生成 X 的方法当且仅当 1−qk−1<U≤1−qk 时,取 X=k,k=1,2,…
等价于
qk≤1−U<qk−1取
X=min{k:qk≤1−U}=min{k:klog(q)≤log(1−U)}=min{k:k≥log(q)log(1−U)}=ceil(log(q)log(1−U))注意到 1−U 也是服从 U(0,1) 分布的,所以只要取
X=ceil(ln(q)ln(U))则 X 服从几何分布
Gumel
终于可以回到我们的问题了,Gumel(μ,β) 分布的累积分布函数为:
F(x;μ,β)=e−e−(x−μ)/β
所以其反函数为
F−1(y,μ,β)=−βlog(e−βμlog(x1))
当然,在 Gumbel max 中使用的是标准 Gumbel 分布,所以 μ=0,β=1,所以上式化简为:
F−1(y)=−log(−log(x))
所以 Gumbel Max Trick 就是:
z=argmaxi(log(πi)+gi),
其中 gi=−log(−log(ui)),ui∼U(0,1),这一项就是从 Gumbel 分布采样得到的噪声。
所以也就是说相当于为每个逻辑值添加了一定的噪声。但是 argmax 也不是可导的,所以我们在得再软化一下。
由此,我们得到 Gumbel Max 的光滑近似版本——Gumbel Softmax:
softmax((logpi−log(−logεi))/τ)i=1k,εi∼U[0,1]
其中参数 τ>0 称为退火参数, 它越小输出结果就越接近 one hot 形式 (但同时梯度消失就越严重)。
为什么要使用 Gumbel 分布,而不是其他的分布?
在进行变换后如何保证与变换前的概率一致?