简单的本地关注机制在长时序任务中保持竞争力

ACLDec, 2021

简单的本地关注机制在长时序任务中保持竞争力

Simple Local Attentions Remain Competitive for Long-Context Tasks

Wenhan Xiong, Barlas Oğuz, Anchit Gupta, Xilun Chen, Diana Liskovich...

TL;DR本研究通过大规模的控制实验，分析了不同的长距离注意力机制，研究发现，即使使用相同的预训练数据集与微调过程，采用简单的局部窗口注意力机制仍然能够胜任大部分任务，而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型，达到与 Longformer 半数的预训练计算相匹配的性能。

Abstract

Many nlp tasks require processing long contexts beyond the length limit of pretrained models. In order to scale these models to longer text sequences, many efficient →

nlp pretrained models long-range attention variants pretrain-and-finetune paradigm local window attention

发现论文，激发创造

抽象文本摘要中的地域性优化

本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能，并探讨了在不同层次（从句子到文档）的三种文本局部性，实验结果表明，采用局部化建模策略的模型具有更好的性能。

May, 2022

对长文本进行的本地自注意力机制以提高文档检索效率

本文提出了一种局部自注意力机制，用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题，并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。

May, 2020

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

调整预训练的文本 - 文本模型以适应长文本序列

本文介绍了一项关于预训练模型适应长序列输入的经验研究，并提出一种构建长上下文模型的有效方法，包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终，研究人员成功构建出具有竞争性的长文本问答模型，并在五个长文本摘要数据集上取得了新的性能最高记录。

Sep, 2022

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

Fovea Transformer：高效的结构化精细到粗糙注意力长上下文建模

Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型，通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力，并在长 - context 摘要任务上取得了最先进的性能。

Nov, 2023

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

不同位置感知机制理解长文档

本篇论文提出了一种新型基于 transformer 的 1D 和 2D 位置感知注意力机制，实验结果表明，该模型在进行长篇文档理解时具有优势，易于基于其他基于 transformer 的架构进行扩展。

Aug, 2022

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

注意力排序在长上下文语言模型中对抗最近偏差

当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识：文本上下文中较早出现的相关信息平均上受到较少关注。然而，即使模型未能使用相关文档的信息来生成回答，它们在同一位置上仍然会对与无关文档相比表现出更多关注。基于这一事实，我们利用 “注意力排序” 来改进长文本模型的性能：在解码过程中进行一步操作，以所接收到的注意力对文档进行排序（最高注意力排序最后），然后重复该过程，生成新排序文本的回答。我们的研究结果突出了使用现成的语言模型进行检索增强生成时的一些挑战。

Sep, 2023