纠正神经机器翻译中的长度偏差
在神经机器翻译中,标签平滑虽然在模型训练过程中提供了所需的正则化效果,但本文演示其对波束搜索解码过程产生长度偏差。我们还证明,对于完全优化的标签平滑模型,翻译长度受到独立于输入的固定常量的隐含上限约束。通过在推理时应用一个简单的修正函数来恢复标签平滑模型预测中的无偏分布,我们验证了我们的理论。这种校正方法在 WMT 英德、英法、英捷和英汉任务中产生了一致的质量改进,波束大小为 4 时最高可达 + 0.3 BLEU,波束大小为 200 时可达 + 2.8 BLEU。
May, 2022
本文首次解决了神经机器翻译中输出长度的控制问题,并调查了两种解决方法,分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明,这两种方法都可以使网络生成更短的翻译,并获得解释性的语言技能。
Oct, 2019
通过改进训练方法、注意机制和解码策略,我们提出了解决文档级神经机器翻译中长度偏差问题的方法,实验证明我们的方法在多个开放数据集上都取得了显著的改进,并且进一步分析显示我们的方法能够明显减轻长度偏差问题。
Nov, 2023
本文以神经序列模型为基础,结合 Beam Search 和 Depth-first Search 算法,提出了一种精确的推理过程,并使用该过程在 WMT15 英德句子翻译测试集上找到了 Transformer 模型的全局最佳模型分数,揭示神经模型在适当考虑翻译准确性方面存在严重问题。论文发现,Beam Search 算法无法在大多数情况下找到全局最佳模型分数,很多情况下模型更倾向于返回空白翻译结果,这源自于神经模型中天然的对短句子的偏好。
Aug, 2019
本论文探讨神经机器翻译中的偏差以及在域偏移和样本干扰下的弱点,并找到应用最小贝叶斯风险解码对抗这些问题的方案。结果表明,这个方法虽然仍有长度和频率偏差,但同样增加了模型的鲁棒性,对样本干扰和域偏移具有更好的适应能力
May, 2021
本文提出了几种方法解决 beam search 的扩展导致的机器翻译质量下降的问题,讨论了这些方法的最优停止准则,并展示了无超参数方法在中英翻译中的优异表现,超过了使用长度规范化启发式方法的 BLEU 值 2.0,并在所有方法中获得了最佳结果。
Aug, 2018
本研究通过调整推理过程,使用性别特征和应用性别约束条件,改善 $nbest$ 列表的性别多样性,解决了神经机器翻译中的性别偏见问题,最终权衡这些技术可以在不需要额外的双语数据或额外的 NMT 模型的情况下获得显着的 WinoMT 准确度提高.
Apr, 2021
本文提出一种新的损失函数 Anti-Focal loss,以更好地适应条件文本生成的结构依赖性,通过在训练过程中合并 beam search 的归纳偏差,从而定量化地表征 Token 分类和序列生成方面的长尾现象,在多个机器翻译数据集上表现出重要改进,特别是在生成低频词方面。
Oct, 2020
通过引入新的实验框架,我们可以在保持所有其他方面不变的情况下,平稳地改变任务约束性,发现重复使用和长度偏差与任务约束性相关,而这些问题只是影响整个分布的模式,并且很难归因于分布熵的变化。
Oct, 2022