超越 MLE：文本生成的凸学习

Oct, 2023

Beyond MLE: Convex Learning for Text Generation

Chenze Shao, Zhengrui Ma, Min Zhang, Yang Feng

TL;DR基于凸函数的训练目标提供了一种新颖的方法，使得文本生成模型能够聚焦于高概率输出，同时增强了自回归模型与非自回归模型的生成能力。

Abstract

maximum likelihood estimation (MLE) is a statistical method used to estimate the parameters of a probability distribution that best explain the observed data. In the context of text generation, MLE is often used

maximum likelihood estimation text generation training objectives convex functions autoregressive models

发现论文，激发创造

逐句平滑规则化用于序列到序列学习

通过使用句子级的规则化方法，解决了在序列模型训练中，最大似然估计普遍存在的非平滑预测概率问题，并取得了在神经机器翻译任务中优越的性能。

Dec, 2018

透过梯度学会使用新标记进行神经文本生成

本文引入了 ScaleGrad，一种对梯度的改进方法，解决了 MLE 在训练模型中会优先使用枯燥、重复短语的问题，并通过直接操纵梯度信息使模型学习使用新颖标记，该方法不仅在无限制生成中表现良好，而且在定向生成任务中也有效。

Jun, 2021

隐式最大似然估计：通过离散指数族分布反向传播

该论文提出了一种基于离散指数族分布和可微神经组件相结合的模型的端到端学习框架 Implicit Maximum Likelihood Estimation（I-MLE），并介绍了一种新型的噪声分布 perturb-and-MAP，该框架在几个数据集上表现良好，并且与依赖于特定问题松弛的现有方法相比竞争力强。

Jun, 2021

最大似然估计是处理良好指定的协变量转移的唯一所需方法

现代机器学习系统的一个关键挑战是实现越界通用化（OOD generalization）- 广义到与源数据分布不同的目标数据。本文证明了在针对协变量转移的规范设置下，令人惊讶的是，纯使用源数据（无需任何修改）的经典最大似然估计（MLE）达到了最小最大优化。我们的结果适用于非常丰富的参数模型，并不需要对密度比率施加任何有界条件。我们通过线性回归、逻辑回归和相位恢复的三个具体示例来说明我们框架的广泛适用性。此外，本文通过证明在误规设定下，MLE 不再是最优选择，而在某些情景下，最大加权似然估计（MWLE）成为最小最大优化。

Nov, 2023

神经对话生成的分组对比学习

本研究利用对比学习方法，在已有预训练模型为基础上，训练对话生成模型，提高其多样性和能力以应对开放领域会话问题，并提出一种适用于广泛对话生成模型的群内对比学习框架，实验结果表明该方法在性能上表现优异。

Sep, 2020

动量粒子极大似然

最大似然估计（MLE）的潜变量模型常常被重新设定为参数和概率分布的扩展空间上的优化问题。我们提出了一个受动力系统启发的方法，结合了 Nesterov 的加速梯度法、欠阻尼朗之万方程和粒子方法，使得该算法在连续时间中收敛到函数的唯一最小值。通过数值实验，我们证明该算法比现有方法更快地收敛，并与其他（近似的）MLE 算法相比具有优势。

Dec, 2023

语言 GANs 的不足

本篇论文研究自然语言生成中存在的曝光偏差问题，指出了评估基准的不足之处，并证明在整个质量和多样性空间中，最大似然估计（Maximum-Likelihood）模型在质量和多样性方面表现优于对抗性变体，且温度调整提供了更好的质量 / 多样性权衡。

Nov, 2018

大边际神经语言模型

我们提出了一种大间隔准则来训练神经语言模型，该模型的训练与最小化困惑度不同，通过增加语句的 “好” 和 “坏” 的间隔以进行特定任务的再评分，实验证明我们的方法在语音识别上可以减少 1.1 WER，在机器翻译中可以增加 1.0 BLEU。

Aug, 2018

基于离线模型的正态化最大似然估计优化

本文提出了在数据驱动的优化问题中利用归一化极大似然估计器解决不确定性和变化范围问题的方法，并通过在各个领域（如化学、生物学和材料工程）的高维设计问题中进行的实验验证了该方法的有效性。

Feb, 2021

MixCE: 通过混合正向和反向交叉熵训练自回归语言模型

本文提出使用 MixCE 目标函数来学习自回归语言模型，该目标函数结合了前向交叉熵和反向交叉熵，以更好地生成类人文本。实验表明，在合成数据和真实数据上，使用 MixCE 训练的模型生成的文本比使用传统方法更好。

May, 2023