神经机器翻译为何更倾向于空输出
本文以神经序列模型为基础,结合 Beam Search 和 Depth-first Search 算法,提出了一种精确的推理过程,并使用该过程在 WMT15 英德句子翻译测试集上找到了 Transformer 模型的全局最佳模型分数,揭示神经模型在适当考虑翻译准确性方面存在严重问题。论文发现,Beam Search 算法无法在大多数情况下找到全局最佳模型分数,很多情况下模型更倾向于返回空白翻译结果,这源自于神经模型中天然的对短句子的偏好。
Aug, 2019
本文首次解决了神经机器翻译中输出长度的控制问题,并调查了两种解决方法,分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明,这两种方法都可以使网络生成更短的翻译,并获得解释性的语言技能。
Oct, 2019
本文研究神经机器翻译中的两个问题:beam search 算法不适用于 NMT 问题,翻译结果过短。作者认为这些问题因标签偏置而产生,提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。
Aug, 2018
本文研究了多语言神经机器翻译模型的零样本翻译问题,提出了基于辅助损失的方法,并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果,同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。
Mar, 2019
提出了一种基于 Margin 的 Token-level Objective(MTO)和 Margin-based Sentence-level Objective(MSO)方法,并在 WMT14 英德,WMT19 中英和 WMT14 英法翻译任务中取得了良好的效果。
May, 2021
本文探讨了如何改善大规模多语言神经机器翻译模型的性能,并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对,同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明,本方法在一对多和多对多设置中缩小了双语模型的性能差距,并将零 - shot 表现提高约 10 BLEU,接近传统的基于中间语言的方法。
Apr, 2020
本文介绍一种利用词对齐算法的数据增强方法来解决神经机器翻译中 out-of-vocabulary 词的翻译问题,并结合字典翻译在 WMT14 英 - 法翻译任务上实现比不使用该方法更高的 BLEU 分数。
Oct, 2014
神经机器翻译 (NMT) 在过去几年取得了显著进展,但仍存在两个具有挑战性的问题,即欠翻译和过翻译。本文从解码目标的角度深入分析了 NMT 中欠翻译的根本原因,并提出了使用预测句子结束标记的置信度作为欠翻译检测器的方法,通过增强基于置信度的惩罚来纠正欠翻译的候选翻译,实验证明该方法可以准确地检测和纠正欠翻译的输出,对其他正确翻译的影响较小。
May, 2024
连续输出神经机器翻译(CoNMT)通过嵌入预测替代了离散的下一个词预测问题;我们挑战了相关单词间语义结构(即相关单词的接近度)对此的重要性的假设,并展示了完全随机的输出嵌入能够优于经过艰苦预训练的嵌入,尤其在更大的数据集上,对于罕见词而言这种令人惊讶的效果最为显著,这是由于他们嵌入的几何形状造成的;我们通过设计一种混合策略来进一步探究此发现,该策略将随机和预训练嵌入用于不同的标记。
Oct, 2023