VarGrad: 变分推断的低方差梯度估计器
我们提出了一种简单且通用的标准重参数化梯度估计变体,以用于变分证据下限。通过删除与评估参数有关的分数函数的导数,我们将产生一个无偏梯度估计器,其方差随着近似后验接近精确后验逐渐逼近零。我们从理论和实证方面分析了这种梯度估计器的行为,并将其推广到更复杂的变分分布中,例如混合分布和重要性加权后验。
Mar, 2017
本文通过将控制变量与连续松弛相结合的方式来降低离散潜在变量的高方差梯度估计,并引入了一种在线调整松弛度的修改方法,实现了最先进的方差降低并加速了生成建模任务中的收敛。
Mar, 2017
本文研究了证据下界,ELBO 的 Fisher-Rao 梯度,该梯度在变分自动编码器,赫姆霍兹机和自由能原理的理论中起着关键作用。ELBO 的自然梯度与目标分布的 Kullback-Leibler 散度的自然梯度有关,这是学习的主要目标函数。基于信息几何中梯度的不变性属性,给出了确保最小化主要目标函数与最大化 ELBO 等价的基本模型条件。
Jul, 2023
本研究提出了一种对 Gumbel-Softmax estimator 进行 Rao-Blackwellization 的方法,可在不增加函数评估数量的情况下减少方差,从而降低均方误差,并在两种无监督潜变量模型中得到了实证验证。
Oct, 2020
本研究介绍了一种通用框架,用于学习随机变量的黑盒函数的低方差、无偏梯度估计器,并应用于训练离散潜变量模型以及提出了基于优势演员 - 评论家强化学习算法的无偏、行为条件扩展。
Oct, 2017
本文介绍了使用控制变量的方法来减少渐变方差的影响,提出了一种贝叶斯风险最小化框架来定量评估这一方法的效果,并表明使用大量控制变量结合的方法显著提高了推理的收敛性。
Oct, 2018
引入一种基于分级变分推断和结构化变分逼近的摊还推断算法,应用于受高斯噪声驱动的非线性动力学状态空间模型。通过利用蒙特卡洛逼近方法中的低秩结构来辅助隐变量的边际化计算、基于低秩精度矩阵更新的推断网络来近似更新步骤、并将当前和未来的观测数据转化为伪观测数据,从而将近似平滑问题转化为(更易解决的)近似过滤问题。整个计算过程的时间复杂度为 $O (TL (Sr + S^2 + r^2))$,其中 $T$ 为时间序列长度,$L$ 为状态空间维度,$S$ 为用于近似预测步骤的样本数,$r$ 为近似精度矩阵更新的秩(远远小于 $L$ 维)。
Mar, 2024
本文提供了一种通用且有效的变分间隙上限估算方法,使得我们可以高效地对 VAE 模型的真实证据进行估算,并且借助我们的估算方法,容易获得 VAE 模型对数似然的上限和下限。
Jun, 2022
本文提出了一种采用拒绝抽样方法来舍弃具有低似然的变分后验采样的方法,并使用一种新的梯度估计器,以 MNIST 数据集为例,在估计边际对数似然时,相对于现有的基于单样本和多样本的方法,可以平均提高 3.71 个 nats 和 0.21 个 nats 的准确性。
Apr, 2018