大鸟：面向更长序列的 Transformer

Jul, 2020

Big Bird: Transformers for Longer Sequences

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti...

TL;DR本文介绍了基于 Transformers 模型 (BERT) 的缺点，提出了一种新模型 BigBird，该模型采用稀疏注意机制以线性方式减少了模型中由全面关注机制导致的二次依赖性 (主要是内存)，能够处理比以前长 8 倍长度的序列。因其能够处理更长的上下文，BigBird 在各种 NLP 任务上都实现了大幅度的性能提升。

Abstract

transformers-based models, such as BERT, have been one of the most successful deep learning models for nlp. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on

transformers-based models nlp bigbird sparse attention mechanism long context

发现论文，激发创造

LittleBird：高效、更快、更长的问答 Transformer 模型

提出了一个新模型 LittleBird，它是基于 BigBird 的改进版本，使用 Attention with Linear Biases（ALiBi）的更灵活、高效的位置表示方法，维护了准确性的同时，在速度和内存占用方面进行了优化。实验证明，LittleBird 在各种语言中表现良好，在特定的 KorQuAD2.0 数据集中，在长段落问答任务中取得了高精度

Oct, 2022

视觉大鸟：全注意力的随机稀疏化

基于 Big Bird 的 Transformers 模型，提出了一种用于 Vision Transformers 的稀疏注意机制，该模型在常见的视觉任务中展现了竞争力。

Nov, 2023

临床长序列变压器：Clinical-Longformer 和 Clinical-BigBird

该研究介绍了一种基于 Transformer 的语言模型，通过使用稀疏的注意机制来扩展最大输入序列长度，从而取得了在多项基准任务中超越 ClinicalBERT 和其他短序列变压器的显著成果。

Jan, 2022

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

基于预训练语言模型的长篇临床文本比较研究

本研究提出了两种经过预训练的基于长序列 Transformer 模型的临床语言模型，它们能够有效地处理临床文本中的长期依赖关系，相较于传统短序列的模型，在十项基准测试任务中均取得了最先进的成果；该研究还提供了源代码和预训练的模型。

Jan, 2023

文本生成模型的鸟瞰变压器

本文提出了一种名为 Bird-Eye Transformer（BET）的新架构，通过重新加权自我注意力以鼓励其更多关注重要的历史信息，进一步提高了变压器的性能，并在多个文本生成任务中进行了实验，包括机器翻译和语言模型，在所有数据集上都比基线变压器结构表现更好。

Oct, 2022

韩 Bird 大型：基于 Transformer 的韩语语言理解转换

本研究介绍了一种名为 KoBigBird-large 的大规模韩语 BigBird 模型，它能够在韩语语言理解方面实现领先水平并处理长序列。通过采用作者提出的锥形绝对位置编码表示（TAPER），无需进一步预训练，只需改变架构和扩展位置编码。实验证明，KoBigBird-large 在韩语语言理解基准测试中表现出类似的领先水平，并在长序列上的文档分类和问题回答任务中展现了与竞争基准模型相比更好的性能。本研究在此公开发布了我们的模型。

Sep, 2023

长上下文 NLP 模型中效率与准确性的权衡特征

本文对自然语言处理中的长文本序列建模技术进行了深入的研究，通过使用两种常见的长序列模型 ——LED 和 Big Bird，实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡，其中 LED 模型在较低的能耗代价下达到了更好的精确度，且模型的性能表现受到超参数的影响。同时，当模型大小和输入序列长度发生变化时，我们还发现了在文本摘要和问答场景下不同的性能优化策略。

Apr, 2022

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022