Unlimiformer: 具有无限长度输入的长程 Transformer

May, 2023

Unlimiformer: 具有无限长度输入的长程 Transformer

Unlimiformer: Long-Range Transformers with Unlimited Length Input

Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley

TL;DR这篇论文提出了一种名为 Unlimiformer 的新方法，可以在不需要修改模型代码或增加学习的权重的情况下，将具有谷歌的长文本模型 Longformer 和 Facebook 的 BART 等预训练模型拓展到可输入无限长度的输入序列，并在多篇文档摘要任务上表现出很高的效果。

Abstract

transformer-based models typically have a predefined bound to their input length, because of their need to potentially attend to every token in the input. In this work, we propose Unlimiformer: a general approach that can wrap any existing →

transformer-based models pretrained encoder-decoder transformer long-document multi-document summarization input truncation

发现论文，激发创造

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

探究有效扩展 Transformer 用于长输入摘要

本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战，并通过实验提出了一种新的模型 PEGASUS-X，在不需要并行训练和添加很多参数的情况下，能够高效地处理长度超过常规预训练模型最大输入长度的输入，并在长输入摘要任务中达到了比较强的性能表现。

Aug, 2022

IceFormer: 基于 CPU 的长序列 Transformer 加速推理

通过加速自注意机制在推断时的方法，我们成功加速了各种长序列转换器，并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升，同时保留了 98.6%-99.6% 的原始预训练模型的准确性。

May, 2024

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

无穷记忆 Transformer

本文提出了一种无限长期记忆的 Transformer 神经网络，使用连续空间的注意机制来处理过长的信息序列，实现了对长序列的信息保持和处理。

Sep, 2021

Sumformer: 高效 Transformer 的通用逼近

本文介绍了一种新的神经网络架构 Sumformer，可以近似等变序列到序列的函数。作者使用 Sumformer 在 Linformer 和 Performer 上实现了第一个通用的逼近结果，并提出了 Transformer 的新证明，仅需要一个注意力层即可实现通用逼近。

Jul, 2023

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

LongT5: 高效的长序列文本转换器

本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Dec, 2021