基于线性关注力模型建模上下文，实现可扩展的文档级翻译

EMNLPOct, 2022

基于线性关注力模型建模上下文，实现可扩展的文档级翻译

Modeling Context With Linear Attention for Scalable Document-Level Translation

Zhaofeng Wu, Hao Peng, Nikolaos Pappas, Noah A. Smith

TL;DR本文研究了一种基于 Peng et al. (2021) 的线性注意力模型，并通过句子门促进最近归纳偏置，以提高文档级机器翻译的效能和翻译质量，并在 IWSLT 2015 和 OpenSubtitles 2018 上进行了评估和测试，结果表明该模型在长序列的解码速度方面有大幅提高，且翻译得分相似或更高，并展示了句子门进一步提高了 IWSLT 上的翻译质量。

Abstract

document-level machine translation leverages inter-sentence dependencies to produce more coherent and consistent translations. However, these models, predominantly based on transformers, are difficult to scale to long documents as their attention layers have quadratic complexity in the

document-level machine translation efficient attention linear attention model sentential gate translation quality

发现论文，激发创造

使用文档级上下文来改进 Transformer 翻译模型

该研究通过在 Transformer 模型中引入上下文编码器，将文档级别的上下文信息融入原有的编码器和解码器中提高翻译质量，同时采用双倍训练方法，充分利用句子级别平行语料库和有限的文档级别平行语料库来训练模型，并通过 NIST 中英数据集和 IWSLT 法英数据集的实验表明，该方法显著提升了 Transformer 模型的性能表现。

Oct, 2018

上下文感知的选择性关注神经机器翻译

提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译，并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中，通过在英德数据集上的实验进一步验证了该方法的有效性。

Mar, 2019

只需 5% 的注意力：高效的长距离文档级神经机器翻译

通过引入基于轻量级注意力的额外选择层，我们在保持翻译性能的同时加快了 20％的速度，能够实现将注意力仅集中在约 5％的令牌上，从而节省了 93％的计算成本。

Sep, 2023

重新思考文档级神经机器翻译

通过合适的训练技术，使用原来的 Transformer 模型可以在涉及长度 2000 个单词的文档级别的翻译中取得比句子级别的模型更好的表现，并且在六种语言的九个文档级别和两个句子级别的数据集上，使用包括 BLEU，四个词法指标，三个新提出的辅助语言指标和人类评估在内的全面指标，证明了文档级别 Transformer 模型的优越性。

Oct, 2020

提高长文本层面机器翻译质量

文档级上下文对神经机器翻译至关重要，然而仅仅增加本地上下文的大小并不能捕捉到整个上下文信息，而这些挑战可以通过引入受限的注意力机制来解决，并在低资源情况下实现良好的折衷方案。

Jun, 2023

学习记忆：用循环记忆的 Transformer 进行文档级机器翻译

介绍了一种新的循环记忆单元来加强 Transformer 框架下文档级机器翻译的一致性，提出了一种两阶段的训练策略，实现了在三个流行数据集上的优异表现，并在 TED 和 News 数据集上实现了比过去最好结果更好的结果。

May, 2022

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于 Transformer 的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

扩展上下文的神经机器翻译

探究在基于注意力的神经机器翻译中使用扩展上下文的效果，通过对电影字幕进行翻译实验，研究增加翻译单元之外的片段对源语言上下文和双语上下文扩展的影响，发现模型可以区分不同片段的信息，并且在一些情况下可以改善译文连贯性。

Aug, 2017