DDPM 模型将一张图片解构为 T 步,从原始的图片 x0 开始,经过 T 步 “ 分解 ” 得到随机杂乱的噪声 xt,即:
=x0→x1→x2→⋯→xT−1→xT=z
所以如果我们能够学会 xt→xt−1 步骤,则我们就可以从噪声恢复原始的图片。所以我们想要学习关系 xt−1=μ(xt),那我们从 xt 出发,反复执行 xt−1=μ(xt) 就能从中恢复。
DDPM 将图片分解的过程描述为:
xt=αtxt−1+βtεt,εt∼N(0,I)
其中有 αt,βt>0,并且有 αt2+β2=1,而 βt 通常接近于 0,可以形象的理解为对于原图的破坏程度,噪声 εt 的引入代表着对于原图的破坏。
反复执行这个分解步骤,我们可以得到:
xt=αtxt−1+βtεt=αt(αt−1xt−2+βt−1εt−1)+βtεt=⋯=(αt⋯α1