Autoregressive 生成模型视为基于能量的模型能够更优化

Jun, 2022

Autoregressive 生成模型视为基于能量的模型能够更优化

Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One

Yezhen Wang, Tong Che, Bo Li, Kaitao Song, Hengzhi Pei...

TL;DR本文介绍了一种名为 E-ARM 的独特方法，用于训练自回归生成模型。该方法利用了 softmax 操作的额外自由度，使得自回归模型本身成为一种测量输入可能性的基于能量的模型，从而提高了自回归生成模型的效果，并减轻了暴露偏差问题和增加了时间上的一致性。

Abstract

autoregressive generative models are commonly used, especially for those tasks involving sequential data. They have, however, been plagued by a slew of inherent flaws due to the intrinsic characteristics of chain-style conditional modeling (e.g., →

autoregressive generative models energy-based learning exposure bias temporal coherence language modeling

发现论文，激发创造

自回归能量机

Autoregressive Energy Machine 是一种高效的基于能量的神经网络模型，具备在无监督学习中广泛使用的灵活性，可以在不受概率密度限制的条件下计算归一化常数，实现在密度估计任务中的最优表现。

Apr, 2019

一种基于 EM 方法的非自回归条件序列生成方法

本文提出的一种新方法使用统一的 EM 框架共同优化 AR 和 NAR 模型，以有效地引导系统消除输出序列中的多模态，评估结果表明，该方法在机器翻译任务上实现了具有竞争力的性能，同时显著减少了推理延迟。

Jun, 2020

基于能量的语音合成模型

这篇论文描述了如何使用基于能量的模型（EBMs）通过噪声对比估计训练，并通过 Langevin Markov Chain Monte-Carlo（MCMC）进行采样，从而扩展了非自回归模型在语音合成中的应用。在 LJSpeech 数据集上的实验证明，该方法在 Tacotron 2 上取得了一定改进。

Oct, 2023

全局自回归模型用于数据高效的序列学习

介绍了一个基于 seq2seq 模型的 GAM（Global Autoregressive Models）的类，将自回归组件与对数线性组件相结合，在小数据条件下使用全局先验特征来补偿数据不足，并使用两个步骤来训练此模型，实验表明，使用第二个自回归模型可以强有力地减少混乱度。

Sep, 2019

面向可编译性约束的代码生成的基于能量的模型

本研究探讨神经语言模型训练源代码的可行性，将编译能力作为约束条件，使用基于能量的模型生成编译代码，提高生成样本的编译能力。

Jun, 2021

用于重新排序推荐的非自回归生成模型

在多阶段推荐系统中，重新排名通过建模项之间的内部列表相关性发挥着关键作用。在重新排名中的关键挑战在于在排列组合空间中探索最优序列。最近的研究提出了一个生成器 - 评估器学习范式，其中生成器生成多个可行序列，评估器基于估计的列表得分选择出最佳序列。生成器是至关重要的，而生成模型非常适合生成器函数。然而，在实时工业系统中部署自回归模型是具有挑战性的。因此，我们提出了一种用于重新排名推荐的非自回归生成模型 (NAR4Rec)，旨在提高效率和效果。为了解决与稀疏训练样本和动态候选项对模型收敛的影响相关的挑战，我们引入了匹配模型。考虑到用户反馈的多样性，我们提出了一种序列级别的非可能性训练目标，以区分可行序列和不可行序列。此外，为了克服非自回归模型中关于目标项的依赖建模不足的问题，我们引入了对比解码来捕捉这些项之间的相关性。对公开可用数据集进行的大量离线实验验证了我们所提出方法与现有最先进的重新排名方法相比的卓越性能。此外，我们的方法已在拥有超过 3 亿日活跃用户的热门视频应用快手上完全部署，显著提高了在线推荐的质量，展示了我们方法的有效性和效率。

Feb, 2024

自回归模型及其替代方案的局限性

本论文研究了自回归语言模型的计算复杂度问题，并提出在自回归模型无法处理概率计算困难的问题时，采用能量模型和潜变量自回归模型等替代方案。

Oct, 2020

能量基模型中的隐式生成和泛化

本文介绍了一些在连续神经网络上训练 MCMC 的能量基础模型的技术，在许多高维度数据域上，如 ImageNet 和 CIFAR-10, 它们的样本表现优于其他可能性模型，并接近当代生成对抗网络 GAN 的表现，同时覆盖所有数据模态。此外，作者还阐述了基于 EBM 的独特能力，如组合性和损坏图像的重建和修复，最后证明 EBMs 模型是跨多种任务有用的模型，进而实现了最先进的超出分布分类、对抗性稳健分类、在线连续类学习和连续长期预测轨迹

Mar, 2019

认知启示的能量基世界模型

通过训练基于能量的世界模型，我们引入了一种能够模拟人类认知的方法，其通过预测上下文和未来状态的兼容性来解决传统的自回归模型的局限性，并展示了在计算机视觉和自然语言处理中的潜在应用。

Jun, 2024

文本生成的残留能量模型

本文探讨了基于序列级别的未标准化的能量模型应用于文本生成，通过在预训练的局部标准化语言模型的残差范围内工作，结合噪声对比估计来训练，同时利用 BERT 和 RoBERTa 等预先训练的双向上下文表示，结果表明在二个大型语言建模数据集上，残差 EBM 相对于局部标准化基线具有更低的困惑度，并且通过重要性抽样生成的效率比基线模型更高，并且在人类评估中具有更高的生成质量。

Apr, 2020