超越 MLE:文本生成的凸学习
本文引入了 ScaleGrad,一种对梯度的改进方法,解决了 MLE 在训练模型中会优先使用枯燥、重复短语的问题,并通过直接操纵梯度信息使模型学习使用新颖标记,该方法不仅在无限制生成中表现良好,而且在定向生成任务中也有效。
Jun, 2021
该论文提出了一种基于离散指数族分布和可微神经组件相结合的模型的端到端学习框架 Implicit Maximum Likelihood Estimation(I-MLE),并介绍了一种新型的噪声分布 perturb-and-MAP,该框架在几个数据集上表现良好,并且与依赖于特定问题松弛的现有方法相比竞争力强。
Jun, 2021
现代机器学习系统的一个关键挑战是实现越界通用化(OOD generalization)- 广义到与源数据分布不同的目标数据。本文证明了在针对协变量转移的规范设置下,令人惊讶的是,纯使用源数据(无需任何修改)的经典最大似然估计(MLE)达到了最小最大优化。我们的结果适用于非常丰富的参数模型,并不需要对密度比率施加任何有界条件。我们通过线性回归、逻辑回归和相位恢复的三个具体示例来说明我们框架的广泛适用性。此外,本文通过证明在误规设定下,MLE 不再是最优选择,而在某些情景下,最大加权似然估计(MWLE)成为最小最大优化。
Nov, 2023
本研究利用对比学习方法,在已有预训练模型为基础上,训练对话生成模型,提高其多样性和能力以应对开放领域会话问题,并提出一种适用于广泛对话生成模型的群内对比学习框架,实验结果表明该方法在性能上表现优异。
Sep, 2020
最大似然估计(MLE)的潜变量模型常常被重新设定为参数和概率分布的扩展空间上的优化问题。我们提出了一个受动力系统启发的方法,结合了 Nesterov 的加速梯度法、欠阻尼朗之万方程和粒子方法,使得该算法在连续时间中收敛到函数的唯一最小值。通过数值实验,我们证明该算法比现有方法更快地收敛,并与其他(近似的)MLE 算法相比具有优势。
Dec, 2023
本篇论文研究自然语言生成中存在的曝光偏差问题,指出了评估基准的不足之处,并证明在整个质量和多样性空间中,最大似然估计(Maximum-Likelihood)模型在质量和多样性方面表现优于对抗性变体,且温度调整提供了更好的质量 / 多样性权衡。
Nov, 2018
我们提出了一种大间隔准则来训练神经语言模型,该模型的训练与最小化困惑度不同,通过增加语句的 “好” 和 “坏” 的间隔以进行特定任务的再评分,实验证明我们的方法在语音识别上可以减少 1.1 WER,在机器翻译中可以增加 1.0 BLEU。
Aug, 2018
本文提出了在数据驱动的优化问题中利用归一化极大似然估计器解决不确定性和变化范围问题的方法,并通过在各个领域(如化学、生物学和材料工程)的高维设计问题中进行的实验验证了该方法的有效性。
Feb, 2021
本文提出使用 MixCE 目标函数来学习自回归语言模型,该目标函数结合了前向交叉熵和反向交叉熵,以更好地生成类人文本。实验表明,在合成数据和真实数据上,使用 MixCE 训练的模型生成的文本比使用传统方法更好。
May, 2023