机器翻译的并行注意力强制

Nov, 2022

Parallel Attention Forcing for Machine Translation

Qingyun Dou, Mark Gales

TL;DR该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战，包括 scheduled attention forcing 来自动开启和关闭 attention forcing，以及 parallel attention forcing 使训练并行化。实验结果表明，这些方法可以提高基于 RNN 和 Transformer 的模型的性能。

Abstract

attention-based autoregressive models have achieved state-of-the-art performance in various sequence-to-sequence tasks, including Text-To-Speech (TTS) and Neural Machine Translation (NMT), but can be difficult to train. The standard training approach, →

attention-based autoregressive models teacher forcing attention forcing scheduled attention forcing parallel attention forcing

发现论文，激发创造

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线 NMT 模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。

Aug, 2016

具有任务特定注意力机制的多语言神经机器翻译

我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型，旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明，使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升，甚至在低资源的零 - shot 翻译方向上也观察到了翻译质量的改善。

Jun, 2018

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

神经机器翻译的交互式注意力

本研究提出了一种名为 INTERACTIVE ATTENTION 的注意力机制，可以通过读写操作来建模解码器与源句子表示之间的交互，从而跟踪交互历史并提高翻译效果，实验结果表明，与基线和某些注意力机制的改进相比，使用 INTERACTIVE ATTENTION 的神经机器翻译系统可以在多个测试数据集上平均优于开源的 attention-based NMT 系统 Groundhog 4.22 BLEU 分数和开源短语 - based 系统 Moses 3.94 BLEU 分数。

Oct, 2016

神经机器翻译的监督注意力

本文提出利用训练句子对齐来提高神经机器翻译的关注或对齐准确性，通过将机器关注与 “真实” 对齐之间的距离计算，并在训练过程中最小化此代价，我们的实验证明，相对于大型词汇神经机器翻译系统，我们的模型显著提高了翻译和对齐质量，超越了最先进的传统基于语法的系统。

Jul, 2016

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

通过模块化线性化注意力提高自回归 NLP 任务的性能

本文提出基于模块化线性化注意力（MLA）的自然语言处理技术，通过结合多种高效的注意力机制，并验证其在自回归任务上显著提升了推理质量和效率。

Apr, 2023

神经机器翻译中生成的前瞻注意力

该论文提出了一种新型的前瞻性注意机制，旨在直接捕捉目标单词之间的依存关系。实验表明，该前瞻性注意机制在机器翻译任务上取得了显著的改进。

Aug, 2017

单调多头注意力

本文提出了一种名为 Monotonic Multihead Attention（MMA）的新型注意力机制，可应用于同时翻译的机器翻译任务，并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法，与最先进的 Milk 方法相比，MMA 具有更好的延迟 - 质量平衡，同时分析了延迟控制对关注范围的影响，通过分析解码器层数和头数对质量和延迟的影响来证明模型的引入。

Sep, 2019