高效的单调多头注意力机制
本文提出了一种名为 Monotonic Multihead Attention(MMA)的新型注意力机制,可应用于同时翻译的机器翻译任务,并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法,与最先进的 Milk 方法相比,MMA 具有更好的延迟 - 质量平衡,同时分析了延迟控制对关注范围的影响,通过分析解码器层数和头数对质量和延迟的影响来证明模型的引入。
Sep, 2019
提出了一种基于键值记忆的注意力机制模型用于神经机器翻译,通过维护及时更新的键内存来跟踪注意力历史和固定值内存来存储源语句的表示,在两个记忆之间进行非平凡的转换和迭代交互,以便每个解码步骤时,可以关注更合适的源单词来预测下一个目标单词从而提高翻译的适用性。在中英文和 WMT17 德英翻译任务的实验结果表明了所提出的模型的优越性。
Jun, 2018
本文提出了 Gaussian Multi-head Attention(GMA)模型,用于开发一种新的 SiMT 策略,并通过模拟对齐和翻译来实现对齐的学习,该方法在 En-Vi 和 De-En 任务中的实验表明,它在翻译和延迟之间的权衡上优于强基线。
Mar, 2022
我们提出了一种统一的编码 - 解码模型,称为 Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果(36.81% 的成功率)用于评估 Alexa Arena 中的对话引导代理。
Nov, 2023
本文介绍了一种基于注意力机制的神经机器翻译模型,该模型通过暂时性存储对齐信息和调节注意力值的方法,提高了翻译效果, 在两种语言对上的大规模实验中,该方法不仅超越了基线 NMT 模型,还比其他相关方法表现更出色,甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。
Aug, 2016
本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型,并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制,实现目前最佳 BLEU 和 METEOR 分数的提升。
Jan, 2022
本文调查了如何将同步文本翻译方法与同时语音翻译相结合,并通过引入预决定模块来适应于端到端的同时语音翻译。同时,对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法,该方法从平均滞后进行调整。
Nov, 2020
提出了一种多路多语言的神经机器翻译方法,通过共享单个的注意力机制,仅线性地增加神经网络的参数数量即可实现多语言翻译,并成功地提高了低资源语言对的翻译质量。
Jan, 2016
研究提出一种可用于在线设置中,使得注意力机制在线性时间内计算的可微分方法,- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题,并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。
Apr, 2017
我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型,旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明,使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升,甚至在低资源的零 - shot 翻译方向上也观察到了翻译质量的改善。
Jun, 2018