联合能量模型训练以获得更好的校准自然语言理解模型

Jan, 2021

联合能量模型训练以获得更好的校准自然语言理解模型

Joint Energy-based Model Training for Better Calibrated Natural Language Understanding Models

Tianxing He, Bryan McCann, Caiming Xiong, Ehsan Hosseini-Asl

TL;DR本文探讨在预训练的文本编码器（如 Roberta）的微调期间进行联合能量模型（EBM）训练，以提高模型的准确性，并通过噪声对比估计进行训练，同时引入掩码语言模型（MLM）目标来提高 NCE 训练的效果。

Abstract

In this work, we explore joint energy-based model (EBM) training during the finetuning of pretrained text encoders (e.g., Roberta) for natural language understanding (NLU) tasks. Our experiments show that EBM tra

energy-based model text encoders natural language understanding noise contrastive estimation masked language model

发现论文，激发创造

文本生成的残留能量模型

本文探讨了基于序列级别的未标准化的能量模型应用于文本生成，通过在预训练的局部标准化语言模型的残差范围内工作，结合噪声对比估计来训练，同时利用 BERT 和 RoBERTa 等预先训练的双向上下文表示，结果表明在二个大型语言建模数据集上，残差 EBM 相对于局部标准化基线具有更低的困惑度，并且通过重要性抽样生成的效率比基线模型更高，并且在人类评估中具有更高的生成质量。

Apr, 2020

训练能量基模型的方法

这篇论文介绍了基于能量的模型（EBM）及其训练方法，包括最大似然训练法和 MCMC 自由法，同时介绍了 SM 和 NCE 等方法并强调它们三者之间的理论联系。

Jan, 2021

基于能量的再排序：利用能量模型来提高神经机器翻译的效果

通过基于能量的重新排序算法，利用基于 MLE 的 NMT 生成更高 BLEU 分数的样本，实现了比 MLE 更好的性能。

Sep, 2020

真实还是虚假？学习区分人造和机器生成文本

本篇论文研究了如何使用预训练的自回归语言模型生成负样本来训练基于能量的模型（EBM）来区分真实文本和自动生成的文本，并探讨了 EBM 的泛化能力及其对负样本产生的影响。

Jun, 2019

基于能源的模型在语音和语言处理中的应用

能量模型（EBM）是一种重要的概率模型，也被称为随机场和无向图模型。EBM 是非标准化的，与其他流行的自标准化概率模型（如隐马尔可夫模型（HMMs）、自回归模型、生成对抗网络（GANs）和变分自动编码器（VAEs））截然不同。近年来，由于在理论和算法方面取得了重大进展，EBM 不仅受到核心机器学习领域的越来越多的关注，而且还受到了语音、视觉、自然语言处理（NLP）等应用领域的关注。语音和语言的序列性质也带来了特殊的挑战，并需要与处理固定维度数据（如图像）有所不同的处理方法。因此，本文的目的是系统介绍能量基模型，包括算法进展和在语音和语言处理中的应用。首先，介绍了 EBM 的基础知识，包括经典模型、最近由神经网络参数化的模型、采样方法以及从经典学习算法到最先进算法的各种学习方法。然后，介绍了 EBM 在三种不同场景下的应用，即建模边际、条件和联合分布。1）用于语言建模的序列数据的 EBM 应用，其中主要关注的是序列本身的边际分布；2）用于建模给定观测序列条件分布的 EBM，在语音识别、序列标注和文本生成方面有应用；3）用于建模观测序列和目标序列的联合分布的 EBM 及其在半监督学习和校准自然语言理解方面的应用。

Mar, 2024

再探能量模型作为策略：排序噪声对比估计和插值能量模型

通过引入排名噪声对比估计（R-NCE）、可学习的负采样器和非对抗联合训练等关键因素，我们证明了高维连续空间中能量模型在训练时并不是不切实际的，我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。

Sep, 2023

利用 Jarzynski 等式高效训练基于能量的模型

本文介绍了一种基于 Jarzynski 平等和序贯蒙特卡洛抽样工具的改进型未校正 Langevin 算法来更有效地计算交叉熵的梯度，避免了标准对比散度算法中存在的不可控逼近问题，在高斯混合分布和 MNIST 数据集上的实验结果均显示该方法优于对比散度算法。

May, 2023

变分自编码器和潜在能量模型的联合训练

本文提出一种联合训练方法，从而学习变分自动编码器（VAE）和潜在基于能量模型（EBM）。该联合训练方法基于一个客观函数，其中包括三个关于潜空间和图像的共同分布的 Kulback-Leibler 分歧，从而无缝集成多样化和对抗性学习。实验表明，这种联合训练极大地提高了 VAE 的综合质量，也使得学习能够检测异常的能量函数成为可能。

Jun, 2020

基于能量的语音合成模型

这篇论文描述了如何使用基于能量的模型（EBMs）通过噪声对比估计训练，并通过 Langevin Markov Chain Monte-Carlo（MCMC）进行采样，从而扩展了非自回归模型在语音合成中的应用。在 LJSpeech 数据集上的实验证明，该方法在 Tacotron 2 上取得了一定改进。

Oct, 2023

基于能量的校准变分自编码器及其无测试时间消耗特性

本文提出了一种新颖的能量校准生成模型，该模型利用条件 EBM 来增强变分自动编码器（VAEs）的性能，针对 VAEs 在生成方向上训练不足而导致生成结果模糊的问题，以及 EBMs 需要昂贵的马尔可夫链蒙特卡罗（MCMC）采样的问题，我们引入了条件 EBM 用于训练时校准生成方向，而不需要在测试时进行采样，这样的方法使得生成模型能够根据数据和校准样本进行自适应加权的训练，从而提高了效率和效果，而不需要在推理阶段进行 MCMC 采样，我们还展示了该方法可以扩展到校准归一化流和变分后验，并提出将该方法应用于基于神经传输先验和零射图像恢复，通过广泛的实验在图像生成和零射图像恢复等各种应用中证明了该方法的有效性，我们的方法在单步非对抗式生成方面展现了最先进的性能。

Nov, 2023