- 斯坦变分梯度下降的非渐进分析
本文研究 Stein 变分梯度下降算法(SVGD),该算法通过优化一组粒子来逼近目标概率分布,我们提供了该算法的新颖有限时间分析,并提供了一种下降引理以及收敛速率研究,并将有限粒子实现的 SVGD 与其群体版本进行了收敛结果的对比。
- AAAI神经网络特洛伊检测器设计科学计算器
设计了一种基于 TensorFlow Playground 的在线神经网络(NN)计算器和一种用于探测嵌入式晶体管的 NN 效率测量方法,通过使用修改后的 Kullback-Liebler 散度应用于 NN 模型状态的直方图,同时量化与数据 - ICML用 f - 散度最小化训练深度能量模型
本文提出了 f-EBM 框架,该框架利用 f 散度来训练 EBM,实验结果表明 f-EBM 的优越性以及使用 f 散度训练 EBM 的好处。
- MM改进的朗之万扩散离散化界限:无需凸性的近乎最优速率
通过对 Euler-Maruyama 离散化的 Langevin 扩散进行改进的分析,我们在时间范围上取得了多项式依赖。该结果匹配了数值 SDE 的正确顺序,并可同时改进基于 Dalayan 方法的所有基于采样和学习的算法。
- ICLR自信度分类器用于异常检测的分析
本文针对图像分类中的 ODD 问题,分析研究了最近提出的使用置信分类器来检测 ODD 样本的方法,并结论表明该方法仍会对偏离训练数据分布的 OOD 样本产生高置信度,建议新增 “拒绝” 类别来训练分类器。
- 端到端语音合成中学习风格控制与转移的潜在表示
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然 - 用狄利克雷变分自编码器进行文本建模
介绍了一种更优秀的文本建模方法:将主题信息作为狄利克雷潜变量明确建模在变分自动编码机(VAE)中。提出的模型更适合重建输入文本,且由于引入的狄利克雷变量与传统的多元高斯变量之间固有的互动,使得模型更不容易出现 KL 散度消失。我们推导了新模 - AAAI带隐式最优先验的变分自编码器
该论文介绍的方法通过密度比技巧来达到 KL 散度的隐式计算,在不模拟聚合后验的情况下,可以使用最优先验,从而在各种数据集上实现高密度估计性能。
- CVPR带有梯度线性化的随机变分推断
本文提出了随机梯度线性化变分推断,并通过三个应用案例展示了在收敛速度和 KL 散度方面相对于传统梯度方法的明显优势。
- NIPS张量的 Legendre 分解
介绍一种新的非负张量分解方法 --Legendre 分解,借助信息几何学理论,重建的张量是唯一且始终最小化与输入张量的 KL 散度,实验表明,Legendre 分解可以比其他非负张量分解方法更准确地重构张量。
- ICML生成对抗模型的组合功能梯度学习
本文提出了一种不依赖于传统极小 - 极大公式的生成式对抗方法理论,并展示了当存在强的辨别器时,通过每个功能性梯度步骤,可以学到一个好的生成器,使得真实数据和生成数据的分布的 KL 散度改善,直到收敛于零,并基于该理论,提出了一种新的稳定的生 - 双判别器生成对抗网络
本文提出了一种名为双判别器生成对抗网络(D2GAN)的生成对抗网络算法,该算法使用 KL 散度和反 KL 散度,避免了多峰性分布的崩塌问题,并在广泛的实验中证明了与最新 GAN 算法相比的竞争和卓越性能。
- ICLR深层生成模型的统一化
本文介绍了针对生成模型学习中 GAN 和 VAEs 的新方法,并阐述了 GAN 和 VAEs 的相似性和差异性,探讨了它们的后验推理和 KL 散度的最小化问题,并将 VAEs 的 importance weighting 方法应用到 GAN - Stein 变分梯度下降作为梯度流
本文针对 Stein 变分梯度下降算法(SVGD)开展了首次理论分析,讨论了其弱收敛性质及通过 Stein 算子引出的新度量结构下的 KL 散度功能梯度流等渐近特性,同时应用弱导数等概念提供了一系列 Stein 算子和 Stein 不等式的 - NIPS斯坦变分梯度下降:一种通用贝叶斯推断算法
本文提出了用于优化的通用变分推理算法,它是梯度下降法的一种自然补充,可以通过一种函数梯度下降来最小化 KL 距离,从而迭代地传输一组粒子以匹配目标分布。经过在各种真实世界模型和数据集上的实证研究,我们的方法与现有的最先进的方法相竞争。我们方 - 概率条件随机场的损失敏感训练
讨论了训练概率条件随机场中最大似然以外的代价函数,该方法以对比排序为基准的实验验证了将代价函数信息纳入到概率训练中的重要性,其中代价启发 KL 目标函数的表现最优。
- ICML最小概率流学习
本文提出了一种新的参数估计技术,该技术无需计算不可处理的归一化因子或从模型的平衡分布中采样,通过建立动态算法将观测到的数据分布转化为模型分布,并通过使得数据分布与运行该动态算法的分布的 KL 散度最小化来进行优化,在 Ising 模型等情况