简单线性注意力语言模型平衡召回 - 吞吐量的权衡

Feb, 2024

简单线性注意力语言模型平衡召回 - 吞吐量的权衡

Simple linear attention language models balance the recall-throughput tradeoff

Simran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti...

TL;DR通过应用实验和理论到广泛的架构上，我们发现语言模型的状态大小与召回能力之间存在关键权衡。我们提出了一种名为 BASED 的简单架构，结合了线性和滑动窗口的注意力机制，通过改变窗口大小和线性注意力特征维度，我们可以在召回 - 内存权衡曲线的帕累托边界上调整状态大小。我们训练了多达 13 亿参数的语言模型，并表明 BASED 在困惑度上与最强的次二次模型相匹配，在现实世界的召回密集型任务中，其准确性超过了它们 6.22 个百分点。

Abstract

Recent work has shown that attention-based language models excel at recall, the ability to ground generations in tokens previously seen in context. However, the →

attention-based language models efficiency recall state size linear attention

发现论文，激发创造

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

利用固定大小的记忆表示进行高效注意力

本研究提出一种新的基于固定大小内存表示的注意力机制，能在不降低模型性能的情况下显著提高模型的实时性能，并能学习到有效的对齐方式。

Jul, 2017

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

注意力汇聚的高效流式语言模型

部署大型语言模型（LLMs）在流式应用中的一个研究论文，介绍了两个主要挑战和一个有效的解决方案 StreamingLLM，用于长文本的流式部署，能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。

Sep, 2023

动物学：在高效语言模型中测量和提高回忆率

我们研究了无需注意力的语言模型，结合了门控和卷积的方法，发现在上下文角色联想回忆方面，注意力模型优于门控卷积模型。通过开发一项新的任务形式，多查询角色联想回忆（MQAR），我们证明了注意力和门控卷积模型之间参数效率的差异，并提出了输入相关的稀疏注意力模式来减小两者之间的差距，并且保持亚二次缩放。

Dec, 2023

大规模语言模型服务的高效内存管理与 PagedAttention

大规模语言模型的高吞吐量通过批处理大量请求实现，本研究提出了 PagedAttention 算法和 vLLM 系统，用于减少关键值缓存（KV cache）内存的浪费和冗余复制，改善系统的吞吐量和内存利用率。

Sep, 2023

解读视觉中的莽巴：线性注意力视角

探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性，发现忘记门和块设计是 Mamba 模型成功的核心因素，并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型，该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型，同时具有可并行计算和快速推理速度。

May, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

抽象文本摘要中的地域性优化

本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能，并探讨了在不同层次（从句子到文档）的三种文本局部性，实验结果表明，采用局部化建模策略的模型具有更好的性能。

May, 2022

神经语言建模中短暂的注意力问题

本论文提出了一种有键 - 值注意机制的神经语言模型，能够输出不同的 key 和 value 表示，同时对下一个单词的分布进行编码，比现有的基于记忆的、神经语言模型表现更好，但发现该方法主要利用最近五个输出表示的记忆。

Feb, 2017