高效的单调多头注意力机制

Dec, 2023

Efficient Monotonic Multihead Attention

Xutai Ma, Anna Sun, Siqi Ouyang, Hirofumi Inaguma, Paden Tomasello

TL;DR我们介绍了 Efficient Monotonic Multihead Attention（EMMA），一种具有数值稳定性和无偏单调对齐估计的先进的同时翻译模型。另外，我们提出了改进的训练和推理策略，包括通过离线翻译模型进行同时微调和减少单调对齐方差。实验结果表明，所提出的模型在西班牙语和英语翻译任务中实现了最先进的性能。

Abstract

We introduce the efficient monotonic multihead attention (EMMA), a state-of-the-art simultaneous translation model with numerically-stable and unbiased →

efficient monotonic multihead attention simultaneous translation model monotonic alignment estimation training and inference strategies speech-to-text translation

发现论文，激发创造

单调多头注意力

本文提出了一种名为 Monotonic Multihead Attention（MMA）的新型注意力机制，可应用于同时翻译的机器翻译任务，并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法，与最先进的 Milk 方法相比，MMA 具有更好的延迟 - 质量平衡，同时分析了延迟控制对关注范围的影响，通过分析解码器层数和头数对质量和延迟的影响来证明模型的引入。

Sep, 2019

键 - 值记忆增强的神经机器翻译

提出了一种基于键值记忆的注意力机制模型用于神经机器翻译，通过维护及时更新的键内存来跟踪注意力历史和固定值内存来存储源语句的表示，在两个记忆之间进行非平凡的转换和迭代交互，以便每个解码步骤时，可以关注更合适的源单词来预测下一个目标单词从而提高翻译的适用性。在中英文和 WMT17 德英翻译任务的实验结果表明了所提出的模型的优越性。

Jun, 2018

高斯多头注意力机制用于机器翻译

本文提出了 Gaussian Multi-head Attention（GMA）模型，用于开发一种新的 SiMT 策略，并通过模拟对齐和翻译来实现对齐的学习，该方法在 En-Vi 和 De-En 任务中的实验表明，它在翻译和延迟之间的权衡上优于强基线。

Mar, 2022

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线 NMT 模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。

Aug, 2016

用于同时多模机器翻译的监督式视觉注意力

本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型，并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制，实现目前最佳 BLEU 和 METEOR 分数的提升。

Jan, 2022

从 SimulMT 到 SimulST: 将同时翻译文本转换为端到端同时翻译语音

本文调查了如何将同步文本翻译方法与同时语音翻译相结合，并通过引入预决定模块来适应于端到端的同时语音翻译。同时，对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法，该方法从平均滞后进行调整。

Nov, 2020

使用共享注意机制的多路多语言神经机器翻译

提出了一种多路多语言的神经机器翻译方法，通过共享单个的注意力机制，仅线性地增加神经网络的参数数量即可实现多语言翻译，并成功地提高了低资源语言对的翻译质量。

Jan, 2016

通过强制单调对齐实现在线和线性时间注意力

研究提出一种可用于在线设置中，使得注意力机制在线性时间内计算的可微分方法，- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题，并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。

Apr, 2017

具有任务特定注意力机制的多语言神经机器翻译

我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型，旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明，使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升，甚至在低资源的零 - shot 翻译方向上也观察到了翻译质量的改善。

Jun, 2018