长上下文 NLP 模型中效率与准确性的权衡特征

ACLApr, 2022

长上下文 NLP 模型中效率与准确性的权衡特征

Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context NLP Models

Phyllis Ang, Bhuwan Dhingra, Lisa Wu Wills

TL;DR本文对自然语言处理中的长文本序列建模技术进行了深入的研究，通过使用两种常见的长序列模型 ——LED 和 Big Bird，实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡，其中 LED 模型在较低的能耗代价下达到了更好的精确度，且模型的性能表现受到超参数的影响。同时，当模型大小和输入序列长度发生变化时，我们还发现了在文本摘要和问答场景下不同的性能优化策略。

Abstract

With many real-world applications of natural language processing (NLP) comprising of long texts, there has been a rise in nlp benchmarks that measure the accuracy of models that can handle longer input sequences.

natural language processing nlp benchmarks long-sequence models accuracy vs. efficiency trade-off hyperparameter settings

发现论文，激发创造

基于预训练语言模型的长篇临床文本比较研究

本研究提出了两种经过预训练的基于长序列 Transformer 模型的临床语言模型，它们能够有效地处理临床文本中的长期依赖关系，相较于传统短序列的模型，在十项基准测试任务中均取得了最先进的成果；该研究还提供了源代码和预训练的模型。

Jan, 2023

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

LittleBird：高效、更快、更长的问答 Transformer 模型

提出了一个新模型 LittleBird，它是基于 BigBird 的改进版本，使用 Attention with Linear Biases（ALiBi）的更灵活、高效的位置表示方法，维护了准确性的同时，在速度和内存占用方面进行了优化。实验证明，LittleBird 在各种语言中表现良好，在特定的 KorQuAD2.0 数据集中，在长段落问答任务中取得了高精度

Oct, 2022

利用短文本模型高效理解长文本

提出了一种名为 SLED 的机制，通过对输入进行重叠切块、使用预训练过的短文本语言模型编码并在解码器中进行信息融合，从而实现处理长序列的目标，其竞争力与特定任务的大型模型不相上下。

Aug, 2022

临床长序列变压器：Clinical-Longformer 和 Clinical-BigBird

该研究介绍了一种基于 Transformer 的语言模型，通过使用稀疏的注意机制来扩展最大输入序列长度，从而取得了在多项基准任务中超越 ClinicalBERT 和其他短序列变压器的显著成果。

Jan, 2022

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

大鸟：面向更长序列的 Transformer

本文介绍了基于 Transformers 模型 (BERT) 的缺点，提出了一种新模型 BigBird，该模型采用稀疏注意机制以线性方式减少了模型中由全面关注机制导致的二次依赖性 (主要是内存)，能够处理比以前长 8 倍长度的序列。因其能够处理更长的上下文，BigBird 在各种 NLP 任务上都实现了大幅度的性能提升。

Jul, 2020

序列到序列模型的结构剪枝：提高推理效率的非对称方法

该研究研究了模型大小、结构修剪、推理效率和摘要准确性之间的关系，发现准确性与编码器大小相关，而推理效率与解码器相关，使用非对称修剪可以在保持相同摘要准确性的情况下将推理延迟减少近 3 倍。

Apr, 2023

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023