- 基于熵的训练方法用于可扩展的神经隐式采样器
本文提出了一种高效可扩展的神经隐式采样器,它通过利用神经转换将易于采样的潜在向量直接映射到目标样本,而无需迭代过程,从而实现低计算成本生成大批量样本,此外,本文还引入了 KL 训练方法和 Fisher 训练方法来有效地优化了所提出神经隐式采 - 基于度量学习改善正常与无声语音间的视觉语音识别差距
本文提出一种基于 visemes 的度量学习方法,解决了视觉语音识别中正常与无声语音的表现差距问题,通过最小化预测 viseme 概率分布之间和内部的 Kullback-Leibler 散度,有效地学习和预测 viseme 身份。
- 解耦的 Kullback-Leibler 散度损失
通过改善 Doupled Kullback-Leibler Divergence 损失函数的对称性和引入全局信息进行一致性正则化,我们提出了更好的 IKL Divergence 损失函数,成功地实现了对抗训练和知识蒸馏任务的最新性能,具有重 - 开放式文本生成的回溯解码
本文提出了一种改进的解码算法 Look-back,利用 Kullback-Leibler 散度来跟踪当前和历史解码步骤之间的分布距离,能够自动预测潜在的重复短语和主题漂移,并移除可能导致故障的标记,从而生成更流畅和连贯的文本,并在文档连续性 - 隐式生成建模的分数差流
本研究提出了一种基于评分差异流的新方法,该方法通过最优降低 Kullback-Leibler 距离来将源分布向目标分布推进,该方法在处理生成建模三难题(高样本质量,模式覆盖和快速采样)时具有潜在的应用价值。
- 扩散桥混合传输,薛定谔桥问题和生成建模
提出了一种新的采样迭代算法,用于解决 Schrödinger 桥问题,该算法展现了一种吸引人的性质,能够在每个步骤中实现目标度量之间的有效耦合关系,并且能够作为一种无近似方法用于实现生成模型,具有更大的灵活性、更快的训练速度和更好的样本质量 - ICLR在总变差距离下调整语言生成模型
采用总变差距离 (TVD) 为目标函数以及 TaiLr 目标函数,可以改善自回归解码期间的文本退化问题,同时在各种文本生成任务中提高生成质量。
- 词嵌入的范数编码信息获取
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词 - 基于分值的生成建模暗中最小化 Wasserstein 距离
本文研究在适当的假设下,基于得分函数的生成模型可以最小化与真实数据分布之间的 Wasserstein 距离,同时说明此类模型的目标函数与生成分布和数据分布的 Kullback-Leibler 散度等价,并通过优化输运理论的新颖应用来证明我们 - 解决数学应用题的自洽推理方法
通过采用自我一致性推理框架 SCR,其中利用修剪策略来纠正输入文本和输出表达式之间的虚假相关样本,进而通过对称的 Kullback-Leibler 分歧来校准输出分布偏移,SCR 生成等效表达式,并在两个大型基准实验中表现出优越性。
- 判别聚类的广义互信息
本文提出了一种新的无监督神经网络训练度量标准 —— 广义互信息 (GEMINI),相比于互信息,它不需要正则化且可自动选择群聚数目,并且是数据空间的几何感知度量,从而提供更好的聚类效果。
- 使用 Kullback-Leibler 散度跟踪变化的连续学习
介绍了一种利用 Kullback-Leibler 散度来监控多维数据流概率分布变化,以预测概念漂移事件并了解其本质的新方法,并探讨了其在预测维护等实际任务中的应用。
- ICML将旋转物体检测为高斯分布及其三维泛化
本文提出用高斯分布模型来检测旋转物体,通过使用 Kullback-Leibler 分布测度作为新的回归损失函数,能够有效提高检测性能,同时提出一种高效的基于高斯度量的标签分配策略。实验结果表明,这种方法在二维和三维图像中的性能优于其他方法。
- 分片瓦烧斯坦变分推理
本研究提出了一种新的变分推断方法,通过最小化切片 Wasserstein 距离来近似非规范化分布并使用神经网络对变分分布进行逼近。我们还提供了理论性分析,并用合成和实际数据进行了实验验证。
- 马尔可夫链分数上升:具有马尔可夫梯度的变分推断的统一框架
提供了多个基于马尔可夫链的有偏梯度估计算法的非渐进收敛分析,并将其视为马尔可夫链梯度下降框架的特例,通过新的理解开发了一种并行的 Markov chain score ascent (pMCSA) 算法,实现了对梯度变化的更紧密控制,从而显 - Mix-and-Match:使用高斯混合嵌入的可伸缩对话响应检索
本文提出一种可伸缩模型,将上下文和响应映射到嵌入空间中的概率分布中,并通过最优化 Kullback-Leibler 散度训练模型,从而在公开对话数据上比其他基于嵌入式方法表现更好。
- KL 和 TV 之间不等式的简短注记
本文讨论了 Kullback-Leibler 散度与总变异距离之间的关系,探讨了 Pinsker's 不等式和 Bretagnolle 和 Huber 的不等式以及它们在最小极大测试下限的应用。
- CVPR强化区分度的损失函数以提高表示学习
通过引入 Gini impurity 所启发的新损失项和最小化两个高级特征分布之间的 Kullback-Leibler 散度,我们在两个图像分类数据集上进行了实验,并得出结论,将我们的新损失项集成到训练目标中始终优于仅使用交叉熵训练的模型, - 通过最大似然密度比估计统一考虑概率差异:连接 KL - 差异和积分概率度量
本文从最大似然密度比估计的角度提供了一个统一的视角,用于解释 Kullback-Leibler(KL)散度和积分概率度量(IPMs)。我们表明 KL 散度和 IPMs 可以表示为仅有样本采样方案不同的最大似然估计值的形式,利用这个结果导出了 - AAAI使用三角分解协议正则化端到端语音翻译
本文介绍了一种新颖的正则化方法用于 E2E-ST 系统的训练,并在 MuST-C 基准测试中显著优于现有技术,该正则化方法通过对 KL 散度进行约束,以更好地利用音频文字翻译三元组数据。