本研究针对 Transformer 架构的编码器 - 解码器注意力机制,提出了四种不同的输入组合策略 (serial, parallel, flat, and hierarchical) 用于多源多模态翻译和具有多个源语言的翻译任务,结果表明模型能够使用多个源,并且比单个源模型有显著提高。
Nov, 2018
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
Sep, 2016
本文研究了两种简单而有效的注意力机制 —— 全局式和局部式,证明了这两种方法在英德翻译任务中的有效性,并使用不同的注意力架构建立了一个新的 WMT'15 英德翻译任务最佳结果的集成模型,其 BLEU 分数为 25.9 分,比现有的最佳基于 NMT 和 n-gram reranker 的系统提高 1.0 分。
Aug, 2015
本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。
Apr, 2021
本论文研究了注意力机制在神经机器翻译中生成对齐的问题,并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制,实验表明,这种机制比标准注意力机制产生更好的对齐效果,并且在中英文翻译任务中均有显著提高。
我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型,旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明,使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升,甚至在低资源的零 - shot 翻译方向上也观察到了翻译质量的改善。
Jun, 2018
提出了一种新颖的多源技术,利用线性化的解析将源语法合并到神经机器翻译中,通过使用单独的编码器将相同源语句的顺序和解析版本相结合,然后使用分层注意机制将结果表示组合,该模型在 WMT17 英德任务上比 seq2seq 和基线解析模型都有超过 1 BLEU 的改进,并且分析表明,与标准解析方法相比,我们的多源语法模型能够成功进行翻译而不需要任何已解析的输入,在长句子上的表现也不如基线模型差。
Aug, 2018
本文研究了多种神经架构用于机器翻译自动后编辑任务。研究内容包括:将 $mt$ 和 $src$ 结合在一起直接对目标进行建模的端到端模型、硬注意力模型和以上两种结合。结果表明:将多个神经架构和硬注意力相结合,所构建的双注意力模型在自动后编辑任务中提供了更好的表现。
Jun, 2017
本文提出了一种新的端对端句法神经机器翻译模型,在源端短语结构的基础上扩展了序列到序列模型,并引入了注意力机制,可以软对齐短语和源句子中的单词,实验结果表明,相比于序列到序列的注意力 NMT 模型,该模型表现显著提升,在 WAT'15 英日翻译数据集上,与当下最优秀的树到串翻译系统相比可媲美。
Mar, 2016
本文研究序列到序列模型中注意力机制,通过监督学习的方法对注意力权重和输出对齐进行训练,实验结果表明,对齐学习对模型性能的提升至关重要。
Apr, 2022