逐句平滑规则化用于序列到序列学习

AAAIDec, 2018

逐句平滑规则化用于序列到序列学习

Sentence-wise Smooth Regularization for Sequence to Sequence Learning

Chengyue Gong, Xu Tan, Di He, Tao Qin

TL;DR通过使用句子级的规则化方法，解决了在序列模型训练中，最大似然估计普遍存在的非平滑预测概率问题，并取得了在神经机器翻译任务中优越的性能。

Abstract

maximum-likelihood estimation (MLE) is widely used in sequence to sequence tasks for model training. It uniformly treats the generation/prediction of each target token as multi-class classification, and yields no

maximum-likelihood estimation model training sentence-wise regularization method neural machine translation bleu scores

发现论文，激发创造

适用于 RNN 语言模型的令牌级别和序列级别损失平滑

该研究提出了一种基于奖励的极大似然估计方法，旨在克服循环神经网络语言模型的固有弊端，并在任务完成后通过两种平滑方法（token-level loss smoothing 和 sequence-level loss smoothing）显著提高了图像生成和机器翻译的效果。

May, 2018

语义标签平滑用于序列到序列问题

本文提出了一种针对 seq2seq 问题的标签平滑技术，能够克服大量输出的难题，通过充分的 n-gram 重叠和语义相似性，取得了明显的效果提升，并且在不同的数据集上超越了现有技术的最佳水平。

Oct, 2020

超越 MLE：文本生成的凸学习

基于凸函数的训练目标提供了一种新颖的方法，使得文本生成模型能够聚焦于高概率输出，同时增强了自回归模型与非自回归模型的生成能力。

Oct, 2023

通过最优输运改进序列到序列学习

本研究提出了一种基于全局序列级别的指导和最优传输的解决方案来提高序列到序列模型的性能并捕捉长程语义结构，经实验证明该方法在多种 NLP 任务中能够实现一致的改进。

Jan, 2019

透过梯度学会使用新标记进行神经文本生成

本文引入了 ScaleGrad，一种对梯度的改进方法，解决了 MLE 在训练模型中会优先使用枯燥、重复短语的问题，并通过直接操纵梯度信息使模型学习使用新颖标记，该方法不仅在无限制生成中表现良好，而且在定向生成任务中也有效。

Jun, 2021

校准序列似然改进条件语言生成

本文介绍了序列可能性校准（SLiC）的方法，在序列生成过程中较大束搜索大小时生成质量会下降，通过使用 SLiC 可以不用启用启发式方法，从而显著提高候选解的生成质量。与传统的 MLE 模型相比，我们在许多生成任务中都获得了更好的结果。

Sep, 2022

超越 MLE：探索 SEARNN 用于低资源的神经机器翻译

通过对英语到伊博语、法语到埃维语以及法语到戈马拉语的翻译实验，本项目评估了 SEARNN 在解决低资源语言带来的独特挑战方面与 MLE 相比的功效，结果显示 SEARNN 在机器翻译低资源语言领域的训练具有显著的 BLEU 分数提升，证明了其作为可行算法的有效性。

May, 2024

MLE 和 RL 在序列预测中的联系

采用统一的熵正则化策略优化框架，将不同算法统一为特殊实例，从而提供了统一的探索与学习效率的视角。此外，本文还提出了一种动态插值的算法，用于调度序列模型的学习，实验证明其优于传统算法。

Nov, 2018

序列导师：带有 KL 控制的序列生成模型的保守微调

本文提出了一种改善递归神经网络 (RNN) 生成序列结构和质量的通用方法，同时保持数据原本学习的信息和样本多样性，首先使用最大似然估计 (MLE) 对 RNN 进行预训练，接着通过强化学习 (RL) 训练另一个 RNN 生成高质量的输出，该方法在生成新的音乐旋律和计算分子结构中均表现出良好效果。

Nov, 2016

用于序列到序列学习的经典结构化预测损失

本文研究了一系列经典目标函数，并将它们应用于神经序列到序列模型的训练，在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。

Nov, 2017