长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

EMNLPSep, 2020

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

Long-Short Term Masking Transformer: A Simple but Effective Baseline for Document-level Neural Machine Translation

Pei Zhang, Boxing Chen, Niyu Ge, Kai Fan

TL;DR本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Abstract

Many document-level neural machine translation (NMT) systems have explored the utility of context-aware architecture, usually requiring an increasing number of parameters and computational complexity. However, fe

neural machine translation context-aware architecture transformer model masking self-attention discourse phenomena

发现论文，激发创造

只需 5% 的注意力：高效的长距离文档级神经机器翻译

通过引入基于轻量级注意力的额外选择层，我们在保持翻译性能的同时加快了 20％的速度，能够实现将注意力仅集中在约 5％的令牌上，从而节省了 93％的计算成本。

Sep, 2023

提高长文本层面机器翻译质量

文档级上下文对神经机器翻译至关重要，然而仅仅增加本地上下文的大小并不能捕捉到整个上下文信息，而这些挑战可以通过引入受限的注意力机制来解决，并在低资源情况下实现良好的折衷方案。

Jun, 2023

基于线性关注力模型建模上下文，实现可扩展的文档级翻译

本文研究了一种基于 Peng et al. (2021) 的线性注意力模型，并通过句子门促进最近归纳偏置，以提高文档级机器翻译的效能和翻译质量，并在 IWSLT 2015 和 OpenSubtitles 2018 上进行了评估和测试，结果表明该模型在长序列的解码速度方面有大幅提高，且翻译得分相似或更高，并展示了句子门进一步提高了 IWSLT 上的翻译质量。

Oct, 2022

上下文感知的选择性关注神经机器翻译

提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译，并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中，通过在英德数据集上的实验进一步验证了该方法的有效性。

Mar, 2019

神经机器翻译中充分利用上下文的探索

通过引入全局上下文，我们提出了一种新的文档级 NMT 框架，用于处理包含任意数量句子的文档，并且可以在标准数据集上优雅地训练，结果表明我们的模型优于 Transformer 基线和之前的文档级 NMT 模型。

Feb, 2020

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

机器翻译的异步和分段双向编码

该研究通过改进基于 Transformer 的异步分段双向解码策略，以提高翻译效率和准确性。实验结果表明，在处理长句子方面，与传统的单向翻译方法相比，我们的方法表现出更高的效率和改善的翻译质量。此外，研究还分析了句子长度对解码结果的影响，并探讨了模型在不同场景中的性能。这项研究的发现不仅为 NMT 领域提供了一种有效的编码策略，而且为未来的研究开辟了新的途径和方向。

Feb, 2024

重新思考文档级神经机器翻译

通过合适的训练技术，使用原来的 Transformer 模型可以在涉及长度 2000 个单词的文档级别的翻译中取得比句子级别的模型更好的表现，并且在六种语言的九个文档级别和两个句子级别的数据集上，使用包括 BLEU，四个词法指标，三个新提出的辅助语言指标和人类评估在内的全面指标，证明了文档级别 Transformer 模型的优越性。

Oct, 2020

深入探究上下文感知神经机器翻译

本文研究了文档级 NMT 模型在四个不同领域中的性能，并发现不同的架构适用于不同的任务，同时发现上下文感知系统在任务特定问题上有改进，而文本级别的指标（如 BLEU）没有显着改进。同时，本文还表明，文档级别的回译对于缺乏文档级别双文本的情况有很大的帮助。

Oct, 2020

正则化上下文门控制在 Transformer 机器翻译中的应用

本文提出了一种在 Transformer 架构中引入 context gates 的方法，以控制源和目标的贡献。此外，还提出了一种规范化方法，以自动产生的点间互信息来指导门控的学习。在 4 个翻译数据集上的实验证明，该模型相对于强基线模型提高 1.0 的 BLEU 分数。

Aug, 2019