纠正神经机器翻译中的长度偏差

Aug, 2018

Correcting Length Bias in Neural Machine Translation

Kenton Murray, David Chiang

TL;DR本文研究神经机器翻译中的两个问题：beam search 算法不适用于 NMT 问题，翻译结果过短。作者认为这些问题因标签偏置而产生，提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。

Abstract

We study two problems in neural machine translation (NMT). First, in beam search, whereas a wider beam should in principle help translation, it often hurts NMT. Second, NMT has a tendency to produce translations that are too short. Here, we argue that these problems are closely related

neural machine translation label bias beam search brevity problem perceptron algorithm

发现论文，激发创造

标签平滑对 Beam Search 解码呈现的隐式长度偏差

在神经机器翻译中，标签平滑虽然在模型训练过程中提供了所需的正则化效果，但本文演示其对波束搜索解码过程产生长度偏差。我们还证明，对于完全优化的标签平滑模型，翻译长度受到独立于输入的固定常量的隐含上限约束。通过在推理时应用一个简单的修正函数来恢复标签平滑模型预测中的无偏分布，我们验证了我们的理论。这种校正方法在 WMT 英德、英法、英捷和英汉任务中产生了一致的质量改进，波束大小为 4 时最高可达 + 0.3 BLEU，波束大小为 200 时可达 + 2.8 BLEU。

May, 2022

神经机器翻译输出长度控制

本文首次解决了神经机器翻译中输出长度的控制问题，并调查了两种解决方法，分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明，这两种方法都可以使网络生成更短的翻译，并获得解释性的语言技能。

Oct, 2019

解决文档级神经机器翻译中的长度偏差问题

通过改进训练方法、注意机制和解码策略，我们提出了解决文档级神经机器翻译中长度偏差问题的方法，实验证明我们的方法在多个开放数据集上都取得了显著的改进，并且进一步分析显示我们的方法能够明显减轻长度偏差问题。

Nov, 2023

论神经机器翻译中的搜索误差和模型误差：难道你的舌头被猫抓走了吗？

本文以神经序列模型为基础，结合 Beam Search 和 Depth-first Search 算法，提出了一种精确的推理过程，并使用该过程在 WMT15 英德句子翻译测试集上找到了 Transformer 模型的全局最佳模型分数，揭示神经模型在适当考虑翻译准确性方面存在严重问题。论文发现，Beam Search 算法无法在大多数情况下找到全局最佳模型分数，很多情况下模型更倾向于返回空白翻译结果，这源自于神经模型中天然的对短句子的偏好。

Aug, 2019

神经机器翻译的束搜索策略

本文提出了通过改进灵活的 beam-search decoder 来加速神经机器翻译的方法，并测试表明，该方法可以提高速度，同时不影响翻译质量。

Feb, 2017

神经机器翻译中最小贝叶斯风险解码的特性理解

本论文探讨神经机器翻译中的偏差以及在域偏移和样本干扰下的弱点，并找到应用最小贝叶斯风险解码对抗这些问题的方案。结果表明，这个方法虽然仍有长度和频率偏差，但同样增加了模型的鲁棒性，对样本干扰和域偏移具有更好的适应能力

May, 2021

突破束缚搜索：关于神经机器翻译评分方法和停止准则的研究

本文提出了几种方法解决 beam search 的扩展导致的机器翻译质量下降的问题，讨论了这些方法的最优停止准则，并展示了无超参数方法在中英翻译中的优异表现，超过了使用长度规范化启发式方法的 BLEU 值 2.0，并在所有方法中获得了最佳结果。

Aug, 2018

优先选择翻译更为准确的性别翻译策略

本研究通过调整推理过程，使用性别特征和应用性别约束条件，改善 $nbest$ 列表的性别多样性，解决了神经机器翻译中的性别偏见问题，最终权衡这些技术可以在不需要额外的双语数据或额外的 NMT 模型的情况下获得显着的 WinoMT 准确度提高.

Apr, 2021

神经机器翻译中的长尾现象

本文提出一种新的损失函数 Anti-Focal loss，以更好地适应条件文本生成的结构依赖性，通过在训练过程中合并 beam search 的归纳偏差，从而定量化地表征 Token 分类和序列生成方面的长尾现象，在多个机器翻译数据集上表现出重要改进，特别是在生成低频词方面。

Oct, 2020

用于研究长度偏差和退化重复的生成任务连续体

通过引入新的实验框架，我们可以在保持所有其他方面不变的情况下，平稳地改变任务约束性，发现重复使用和长度偏差与任务约束性相关，而这些问题只是影响整个分布的模式，并且很难归因于分布熵的变化。

Oct, 2022