跨注意力就是你所需要的：将预训练变换器应用于机器翻译

EMNLPApr, 2021

跨注意力就是你所需要的：将预训练变换器应用于机器翻译

Cross-Attention is All You Need: Adapting Pretrained Transformers for Machine Translation

Mozhdeh Gheini, Xiang Ren, Jonathan May

TL;DR本研究探讨 Transformer 架构中交叉注意力在机器翻译领域迁移学习中的能力，并在从头开始训练的情况下扩展交叉注意力的研究结果，结果显示细调整仅交叉注意力参数与细调整所有参数（即整个翻译模型）的效果相似，细节说明为什么这是这种情况，并且发现以这种方式限制细调整可以产生交叉语言嵌入。研究结果可以用于减轻灾难性遗忘，实现零 - shot 翻译，并将机器翻译模型扩展到多个新语言对，减轻参数存储开销。

Abstract

We study the power of cross-attention in the transformer architecture within the context of transfer learning for →

machine translation transformer architecture transfer learning cross-attention fine-tuning

发现论文，激发创造

VECO: 变量和灵活的跨语言预训练模型，用于语言理解和生成

本文提出了一种在 Transformer 编码器中添加交叉注意力模块的方法，用于处理多语言预训练中的语言依赖关系问题，并在多种跨语言任务中获得新的最先进结果。

Oct, 2020

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

神经机器翻译的硬编码高斯注意力

本论文探讨了 Transformer 的多头注意力对于实现高质量翻译的重要性，并基于此开发了一种无需任何学习参数的 ' 硬编码 ' 注意力变量。替换编码器和解码器中所有学习自注意力头部与固定、与输入无关的高斯分布最小程度影响四个不同语言对的 BLEU 得分，但额外硬编码交叉注意力 (将解码器与编码器连接) 会显著降低 BLEU，这提示它比自注意力更重要。通过在仅有一个基于硬编码 Transformer 中添加一个学习交叉注意头部可弥补大部分 BLEU 下降。综合结果揭示了 Transformer 的哪些组件实际上是重要的，这将有助于引导未来工作开发更简单、更高效的基于注意力的模型。

May, 2020

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

一次就够：一种轻量级的交叉注意力用于快速语句对建模

本文提出了一种高效的 MixEncoder 范式，它包括一种轻量级的交叉关注机制，可以在快速计算的同时实现可比较的性能，大大加速了句子配对。

Oct, 2022

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

Cross-Align: 模拟深层跨语言相互作用以进行单词对齐

提出一种基于多语言预训练模型的词语对齐方法，通过在浅层中利用共享的自注意力模块，将源语句和目标语句单独编码，而在较高层通过交叉注意力模块显式地构建跨语言交互，达到提高词语对齐质量的效果。通过采用两阶段训练框架，实现对模型的有效训练，实验结果在五对语言中有四对的性能达到了最新水平。

Oct, 2022