文本生成的残留能量模型

ICLRApr, 2020

Residual Energy-Based Models for Text Generation

Yuntian Deng, Anton Bakhtin, Myle Ott, Arthur Szlam, Marc'Aurelio Ranzato

TL;DR本文探讨了基于序列级别的未标准化的能量模型应用于文本生成，通过在预训练的局部标准化语言模型的残差范围内工作，结合噪声对比估计来训练，同时利用 BERT 和 RoBERTa 等预先训练的双向上下文表示，结果表明在二个大型语言建模数据集上，残差 EBM 相对于局部标准化基线具有更低的困惑度，并且通过重要性抽样生成的效率比基线模型更高，并且在人类评估中具有更高的生成质量。

Abstract

text generation is ubiquitous in many NLP tasks, from summarization, to dialogue and machine translation. The dominant parametric approach is based on locally normalized models which predict one word at a time. W

text generation locally normalized models energy-based models pretrained language model importance sampling

发现论文，激发创造

真实还是虚假？学习区分人造和机器生成文本

本篇论文研究了如何使用预训练的自回归语言模型生成负样本来训练基于能量的模型（EBM）来区分真实文本和自动生成的文本，并探讨了 EBM 的泛化能力及其对负样本产生的影响。

Jun, 2019

基于能源的模型在语音和语言处理中的应用

能量模型（EBM）是一种重要的概率模型，也被称为随机场和无向图模型。EBM 是非标准化的，与其他流行的自标准化概率模型（如隐马尔可夫模型（HMMs）、自回归模型、生成对抗网络（GANs）和变分自动编码器（VAEs））截然不同。近年来，由于在理论和算法方面取得了重大进展，EBM 不仅受到核心机器学习领域的越来越多的关注，而且还受到了语音、视觉、自然语言处理（NLP）等应用领域的关注。语音和语言的序列性质也带来了特殊的挑战，并需要与处理固定维度数据（如图像）有所不同的处理方法。因此，本文的目的是系统介绍能量基模型，包括算法进展和在语音和语言处理中的应用。首先，介绍了 EBM 的基础知识，包括经典模型、最近由神经网络参数化的模型、采样方法以及从经典学习算法到最先进算法的各种学习方法。然后，介绍了 EBM 在三种不同场景下的应用，即建模边际、条件和联合分布。1）用于语言建模的序列数据的 EBM 应用，其中主要关注的是序列本身的边际分布；2）用于建模给定观测序列条件分布的 EBM，在语音识别、序列标注和文本生成方面有应用；3）用于建模观测序列和目标序列的联合分布的 EBM 及其在半监督学习和校准自然语言理解方面的应用。

Mar, 2024

联合能量模型训练以获得更好的校准自然语言理解模型

本文探讨在预训练的文本编码器（如 Roberta）的微调期间进行联合能量模型（EBM）训练，以提高模型的准确性，并通过噪声对比估计进行训练，同时引入掩码语言模型（MLM）目标来提高 NCE 训练的效果。

Jan, 2021

训练能量基模型的方法

这篇论文介绍了基于能量的模型（EBM）及其训练方法，包括最大似然训练法和 MCMC 自由法，同时介绍了 SM 和 NCE 等方法并强调它们三者之间的理论联系。

Jan, 2021

基于能量的语音合成模型

这篇论文描述了如何使用基于能量的模型（EBMs）通过噪声对比估计训练，并通过 Langevin Markov Chain Monte-Carlo（MCMC）进行采样，从而扩展了非自回归模型在语音合成中的应用。在 LJSpeech 数据集上的实验证明，该方法在 Tacotron 2 上取得了一定改进。

Oct, 2023

可解释文本建模的潜在扩散基于能量模型

该论文提出了一种新的基于扩散模型与潜空间 EBM 的符号学方法，该方法结合了基于几何聚类的正则化与信息瓶颈，从而在解释性文本建模方面表现出比强大对手更优异的性能。

Jun, 2022

再探能量模型作为策略：排序噪声对比估计和插值能量模型

通过引入排名噪声对比估计（R-NCE）、可学习的负采样器和非对抗联合训练等关键因素，我们证明了高维连续空间中能量模型在训练时并不是不切实际的，我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。

Sep, 2023

能量基模型中的隐式生成和泛化

本文介绍了一些在连续神经网络上训练 MCMC 的能量基础模型的技术，在许多高维度数据域上，如 ImageNet 和 CIFAR-10, 它们的样本表现优于其他可能性模型，并接近当代生成对抗网络 GAN 的表现，同时覆盖所有数据模态。此外，作者还阐述了基于 EBM 的独特能力，如组合性和损坏图像的重建和修复，最后证明 EBMs 模型是跨多种任务有用的模型，进而实现了最先进的超出分布分类、对抗性稳健分类、在线连续类学习和连续长期预测轨迹

Mar, 2019

文本到图像扩散模型中的贝叶斯上下文更新能量交叉注意力

本文提出了基于能量的模型框架，该框架可应用于图像生成任务中对文本提示的意义内容进行相应的处理。经过充分实验表明，该方法在处理多概念生成、文本引导的图像修补以及实际和人造图像编辑等各种图像生成任务方面非常有效。

Jun, 2023

认知启示的能量基世界模型

通过训练基于能量的世界模型，我们引入了一种能够模拟人类认知的方法，其通过预测上下文和未来状态的兼容性来解决传统的自回归模型的局限性，并展示了在计算机视觉和自然语言处理中的潜在应用。

Jun, 2024