LSG 注意力机制：将预训练的 Transformer 推广到长序列

Oct, 2022

LSG 注意力机制：将预训练的 Transformer 推广到长序列

LSG Attention: Extrapolation of pretrained Transformers to long sequences

Charles Condevaux, Sébastien Harispe

TL;DR本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Abstract

transformer models achieve state-of-the-art performance on a wide range of NLP tasks. They however suffer from a prohibitive limitation due to the self-attention mechanism, inducing $O(n^2)$ complexity with regar

transformer models self-attention mechanism lsg architecture classification summarization

发现论文，激发创造

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

使用结构化矩阵增强的 X 转换器进行长序列时间序列预测

通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks，提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计，以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中，观察到平均性能提高了 9.45％，同时模型的大小降低了 46％。

May, 2024

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

LongT5: 高效的长序列文本转换器

本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Dec, 2021

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021