论神经机器翻译中的搜索误差和模型误差：难道你的舌头被猫抓走了吗？

EMNLPAug, 2019

论神经机器翻译中的搜索误差和模型误差：难道你的舌头被猫抓走了吗？

On NMT Search Errors and Model Errors: Cat Got Your Tongue?

Felix Stahlberg, Bill Byrne

TL;DR本文以神经序列模型为基础，结合 Beam Search 和 Depth-first Search 算法，提出了一种精确的推理过程，并使用该过程在 WMT15 英德句子翻译测试集上找到了 Transformer 模型的全局最佳模型分数，揭示神经模型在适当考虑翻译准确性方面存在严重问题。论文发现，Beam Search 算法无法在大多数情况下找到全局最佳模型分数，很多情况下模型更倾向于返回空白翻译结果，这源自于神经模型中天然的对短句子的偏好。

Abstract

We report on search errors and model errors in neural machine translation (NMT). We present an exact inference procedure for neural sequen

neural machine translation exact inference beam search transformer model search errors

发现论文，激发创造

神经机器翻译的束搜索策略

本文提出了通过改进灵活的 beam-search decoder 来加速神经机器翻译的方法，并测试表明，该方法可以提高速度，同时不影响翻译质量。

Feb, 2017

挖掘神经机器翻译中的错误：从部分假设空间评估和理解模型错误

本研究提出了一种新的神经机器翻译 (NMT) 模型评估协议，该协议基于模型的排名能力定义模型错误，并提出了两种近似方法，以应对指数级的假设空间，并将其应用于各种 NMT 基准和模型架构，揭示了模型的排名问题，评估模型错误与搜索算法的相关性。

Jun, 2021

纠正神经机器翻译中的长度偏差

本文研究神经机器翻译中的两个问题：beam search 算法不适用于 NMT 问题，翻译结果过短。作者认为这些问题因标签偏置而产生，提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。

Aug, 2018

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

谷歌的神经机器翻译系统：弥合人类翻译和机器翻译之间的差距

Google 发布的 GNMT 神经机器翻译系统采用 LSTM 深度学习网络，使用 attention 机制和残差连接，借助词元素 (wordpieces) 将单词划分为子单元，提高了稀有单词处理能力与整体系统精度。

Sep, 2016

神经机器翻译为何更倾向于空输出

研究神经机器翻译系统为何会给空翻译很高的概率，发现标签平滑使正确长度的翻译信心降低，使空翻译更容易得分，并且 NMT 系统使用相同的高频 EoS 词来结束所有目标句子，产生隐式平滑，增加零长度翻译。

Dec, 2020

优先选择翻译更为准确的性别翻译策略

本研究通过调整推理过程，使用性别特征和应用性别约束条件，改善 $nbest$ 列表的性别多样性，解决了神经机器翻译中的性别偏见问题，最终权衡这些技术可以在不需要额外的双语数据或额外的 NMT 模型的情况下获得显着的 WinoMT 准确度提高.

Apr, 2021

突破束缚搜索：关于神经机器翻译评分方法和停止准则的研究

本文提出了几种方法解决 beam search 的扩展导致的机器翻译质量下降的问题，讨论了这些方法的最优停止准则，并展示了无超参数方法在中英翻译中的优异表现，超过了使用长度规范化启发式方法的 BLEU 值 2.0，并在所有方法中获得了最佳结果。

Aug, 2018

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。

Mar, 2019

神经机器翻译的训练和推理之间的缩小差距

本研究针对神经机器翻译存在的训练误差积累和过度校正问题，提出了一种从训练模型的预测序列中采样上下文词并使用句子级优化方法选择预测序列的训练策略，并在中英互译和 WMT'14 英德互译数据集上得到了显著提高。

Jun, 2019