无序交叉熵在非自回归机器翻译中的应用

ICMLJun, 2021

无序交叉熵在非自回归机器翻译中的应用

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation

Cunxiao Du, Zhaopeng Tu, Jing Jiang

TL;DR本文提出了一种新的训练目标，名为非自回归翻译（NAT）模型的无序交叉熵（OaXE），通过改善标准交叉熵损失来改善字词重排序的影响，并解决了 NAT 中的严重多模性问题，有效地提高了翻译性能，在 WMT 基准测试中取得了最新的最佳效果。

Abstract

We propose a new training objective named order-agnostic cross entropy (OaXE) for fully non-autoregressive translation (NAT) models. OaXE improves the standard cross-entropy loss to ameliorate the effect of

order-agnostic cross entropy non-autoregressive translation word reordering multimodality problem wmt benchmarks

发现论文，激发创造

ngram-OAXE：基于短语的无序自回归机器翻译交叉熵

使用 ngram-oaxe loss 进行翻译，能够更好地模拟表达短语和句子的结构，减轻多模式及单词排序错误的影响。

Oct, 2022

非自回归机器翻译的对齐交叉熵

本文提出了一种新的针对非自回归机器翻译模型的训练方法 aligned cross entropy (AXE)，该方法通过使用可微动态规划来实现最佳单调对齐，明显改善了条件掩码语言模型在主要 WMT 基准测试中的表现并创下了非自回归模型的新记录。

Apr, 2020

非自回归翻译的多粒度优化

本论文提出了一种针对非自回归机器翻译的多粒度优化方法，利用反向传播集成不同粒度的翻译段的模型行为反馈，实现在 WMT 基准测试集上超越对比模型，且在 WMT'16 En-Ro 上实现了最佳性能，在 WMT'14 En-De 上实现了高竞争的结果。

Oct, 2022

非自回归机器翻译中的语法多模式研究

该论文针对非自回归翻译模型中存在的语法多模式问题进行了系统研究。作者提出了连接时序分类（CTC）和无序交叉熵（OAXE）损失函数来处理不同范围的语法多模式，并设计了一种新的损失函数来更好地处理实际世界数据集中的复杂语法多模式。

Jul, 2022

非自回归神经机器翻译中的 N 元词袋差异最小化

本文提出通过训练 NAT 最小化模型输出和参考句子之间的 N-Gram 差异来促进 NAT 捕捉目标方面的序列依赖性，并与翻译质量相关。在三个翻译任务上验证了我们的方法，结果显示我们的方法在 WMT14 En<->De 和 WMT16 En<->Ro 上比 NAT 基线大约 5.0 和 2.5 个 BLEU 分数。

Nov, 2019

非自回归神经机器翻译的序列级训练

本文提出了一种使用序列级训练目标来训练非自回归神经机器翻译模型的方法，通过几种为非自回归定制的新型强化算法，基于 BLEU 等序列级评价指标优化 NAT 模型的训练；介绍了一种基于 Bag-of-Ngrams（BoN）差异的 NAT 模型的新型训练目标；并通过三阶段训练策略将这两种方法结合起来应用，验证了该方法在多项任务中的鲜明表现。

Jun, 2021

基于 CTC 的非自回归机器翻译中的非单调潜在对齐

本文提出了一种利用非单调潜在对齐的方法，扩展非自回归翻译模型的非单调对齐空间，进一步考虑与目标句子重叠的所有对齐，并训练潜在对齐模型以最大化非单调匹配的 F1 分数，从而提高 CTC-based 模型的翻译性能，最佳模型在 WMT14 En-De 上实现了 30.06 BLEU 的性能表现。

Oct, 2022

非自回归翻译的上下文感知交叉注意力

本研究针对非自回归翻译中 decoder 缺乏目标依赖建模的问题，提出一种基于跨注意力增强源上下文信息的方法，实验表明该方法能够改善翻译质量并更好地利用源语句的局部和全局信息。

Nov, 2020

有向无环图中的模糊对齐用于非自回归机器翻译

本文提出了一种新的方法，使用模糊对齐分数来训练基于有向无环图结构的非自回归翻译模型，从而解决多模态问题，在主要 WMT 基准数据上取得了显著的翻译性能提升和置信度提高，为非自回归翻译模型的训练提供了一个新的方向。

Mar, 2023

带增强解码器输入的非自回归神经机器翻译

本文提出了两种增强解码器输入以提高 NAT 模型的翻译准确性的方法，并表明这些方法在 WMT14 英德任务和 WMT16 英罗马任务中比 NAT 基线高出 $5.11$ BLEU 分数和 $4.72$ BLEU 分数。

Dec, 2018