神经机器翻译中的长尾现象

EMNLPOct, 2020

On Long-Tailed Phenomena in Neural Machine Translation

Vikas Raunak, Siddharth Dalmia, Vivek Gupta, Florian Metze

TL;DR本文提出一种新的损失函数 Anti-Focal loss，以更好地适应条件文本生成的结构依赖性，通过在训练过程中合并 beam search 的归纳偏差，从而定量化地表征 Token 分类和序列生成方面的长尾现象，在多个机器翻译数据集上表现出重要改进，特别是在生成低频词方面。

Abstract

State-of-the-art neural machine translation (NMT) models struggle with generating low-frequency tokens, tackling which remains a major challenge. The analysis of long-tailed phenomena in the context of structured

neural machine translation long-tailed phenomena anti-focal loss conditional text generation low-frequency words

发现论文，激发创造

神经机器翻译的 Token 级自适应训练

本文研究了神经机器翻译中的令牌不平衡现象，并提出采用基于目标令牌频率的目标令牌级自适应目标来训练模型，以提高翻译质量和提高翻译词汇的多样性。结果表明，与基线相比，在包含更多低频词汇的句子中，分别可以获得 1.68，1.02 和 0.52 的 BLEU 增益。

Oct, 2020

SALTED: 一种适用于长尾数据的翻译错误检测框架

SALTED 是一种基于规格的机器翻译行为测试框架，在模型开发过程中提供细粒度的错误视图，能够识别机器翻译系统中的显著长尾错误，并生成元测量测试数据以获取更多的错误。

May, 2022

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

面向频率的对比学习在神经机器翻译中的应用

本文提出一种基于词频感知的令牌级对比学习方法，旨在从表示学习角度解决现代神经机器翻译系统中低频词预测的挑战。经实验证明，所提出的方法不仅可以显著提高翻译质量，还可以增加词汇多样性并优化词表示空间。与相关的自适应训练策略相比，该方法在不牺牲精度的前提下提高了低频词汇量的召回率稳健性。

Dec, 2021

神经机器翻译输出长度控制

本文首次解决了神经机器翻译中输出长度的控制问题，并调查了两种解决方法，分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明，这两种方法都可以使网络生成更短的翻译，并获得解释性的语言技能。

Oct, 2019

纠正神经机器翻译中的长度偏差

本文研究神经机器翻译中的两个问题：beam search 算法不适用于 NMT 问题，翻译结果过短。作者认为这些问题因标签偏置而产生，提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。

Aug, 2018

面向开放词汇神经机器翻译的隐变形模型

本文提出了一种通过分层潜在变量模拟词态变化过程的方法，通过组合两个潜在表示（一个连续的表示和一组（近似）离散特征），逐个字符生成单词，从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。

Oct, 2019

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

神经机器翻译中目标侧词形变化建模

本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题，该方法是训练系统生成单词的词元和丰富的词性标记，然后进行确定性生成步骤，应用于英语 - 捷克语和英语 - 德语翻译方案中，获得了改进。

Jul, 2017