神经机器翻译为何更倾向于空输出

Dec, 2020

神经机器翻译为何更倾向于空输出

Why Neural Machine Translation Prefers Empty Outputs

Xing Shi, Yijun Xiao, Kevin Knight

TL;DR研究神经机器翻译系统为何会给空翻译很高的概率，发现标签平滑使正确长度的翻译信心降低，使空翻译更容易得分，并且 NMT 系统使用相同的高频 EoS 词来结束所有目标句子，产生隐式平滑，增加零长度翻译。

Abstract

We investigate why neural machine translation (NMT) systems assign high probability to empty translations. We find two explanations. First, label smoothing makes correct-length translations less confident, making

neural machine translation label smoothing empty translations eos word implicit smoothing

发现论文，激发创造

论神经机器翻译中的搜索误差和模型误差：难道你的舌头被猫抓走了吗？

本文以神经序列模型为基础，结合 Beam Search 和 Depth-first Search 算法，提出了一种精确的推理过程，并使用该过程在 WMT15 英德句子翻译测试集上找到了 Transformer 模型的全局最佳模型分数，揭示神经模型在适当考虑翻译准确性方面存在严重问题。论文发现，Beam Search 算法无法在大多数情况下找到全局最佳模型分数，很多情况下模型更倾向于返回空白翻译结果，这源自于神经模型中天然的对短句子的偏好。

Aug, 2019

神经机器翻译输出长度控制

本文首次解决了神经机器翻译中输出长度的控制问题，并调查了两种解决方法，分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明，这两种方法都可以使网络生成更短的翻译，并获得解释性的语言技能。

Oct, 2019

纠正神经机器翻译中的长度偏差

本文研究神经机器翻译中的两个问题：beam search 算法不适用于 NMT 问题，翻译结果过短。作者认为这些问题因标签偏置而产生，提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。

Aug, 2018

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。

Mar, 2019

防止神经机器翻译语言模型过度自信

提出了一种基于 Margin 的 Token-level Objective（MTO）和 Margin-based Sentence-level Objective（MSO）方法，并在 WMT14 英德，WMT19 中英和 WMT14 英法翻译任务中取得了良好的效果。

May, 2021

改进大规模多语言神经机器翻译和零样例翻译

本文探讨了如何改善大规模多语言神经机器翻译模型的性能，并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对，同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明，本方法在一对多和多对多设置中缩小了双语模型的性能差距，并将零 - shot 表现提高约 10 BLEU，接近传统的基于中间语言的方法。

Apr, 2020

神经机器翻译中的生僻词问题解决方案

本文介绍一种利用词对齐算法的数据增强方法来解决神经机器翻译中 out-of-vocabulary 词的翻译问题，并结合字典翻译在 WMT14 英 - 法翻译任务上实现比不使用该方法更高的 BLEU 分数。

Oct, 2014

快速训练带有数据排序的 NMT 模型

提出了一种基于长度排序的算法，用于降低 Transformer 模型计算空标记的计算负担，以提高机器翻译的计算速度和性能。

Aug, 2023

从解码目标的角度理解和解决翻译结果不足的问题

神经机器翻译 (NMT) 在过去几年取得了显著进展，但仍存在两个具有挑战性的问题，即欠翻译和过翻译。本文从解码目标的角度深入分析了 NMT 中欠翻译的根本原因，并提出了使用预测句子结束标记的置信度作为欠翻译检测器的方法，通过增强基于置信度的惩罚来纠正欠翻译的候选翻译，实验证明该方法可以准确地检测和纠正欠翻译的输出，对其他正确翻译的影响较小。

May, 2024

连续输出神经机器翻译的随机目标嵌入的非凡有效性

连续输出神经机器翻译（CoNMT）通过嵌入预测替代了离散的下一个词预测问题；我们挑战了相关单词间语义结构（即相关单词的接近度）对此的重要性的假设，并展示了完全随机的输出嵌入能够优于经过艰苦预训练的嵌入，尤其在更大的数据集上，对于罕见词而言这种令人惊讶的效果最为显著，这是由于他们嵌入的几何形状造成的；我们通过设计一种混合策略来进一步探究此发现，该策略将随机和预训练嵌入用于不同的标记。

Oct, 2023