Unlimiformer: 具有无限长度输入的长程 Transformer
Longformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。
Apr, 2020
本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战,并通过实验提出了一种新的模型 PEGASUS-X,在不需要并行训练和添加很多参数的情况下,能够高效地处理长度超过常规预训练模型最大输入长度的输入,并在长输入摘要任务中达到了比较强的性能表现。
Aug, 2022
通过加速自注意机制在推断时的方法,我们成功加速了各种长序列转换器,并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升,同时保留了 98.6%-99.6% 的原始预训练模型的准确性。
May, 2024
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
本文介绍了一种新的神经网络架构 Sumformer,可以近似等变序列到序列的函数。作者使用 Sumformer 在 Linformer 和 Performer 上实现了第一个通用的逼近结果,并提出了 Transformer 的新证明,仅需要一个注意力层即可实现通用逼近。
Jul, 2023
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022
本文介绍了一种新模型 LongT5,该模型将长输入变换(ETC)的注意力机制和摘要预训练(PEGASUS)的预训练策略整合到可扩展的 T5 架构中,取得了更好的自然语言摘要和问答系统结果。
Dec, 2021