单一背景大批量采样的分叉注意力

Mar, 2024

单一背景大批量采样的分叉注意力

Bifurcated Attention for Single-Context Large-Batch Sampling

Ben Athiwaratkun, Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Haifeng Qian, Hantian Ding...

TL;DR我们的研究提出了分叉注意力，这是一种用于单一上下文批次采样环境中的语言模型推断的方法。该方法通过将注意机制在增量解码过程中划分为两个不同的 GEMM 操作，分别聚焦于预装填的 KV 缓存和解码过程，以降低冗余的内存 IO 成本，从而实现精确计算并保持标准注意机制的常规计算负载（FLOPs），但减少内存 IO。分叉注意力还与已知用于降低内存 IO 的多查询注意力机制兼容，进一步支持更大的批次大小和上下文长度。因此，该方法的高效性能导致更低的延迟，提高了其适用性，例如在实时应用中实现了并行的答案生成，而不会显著增加延迟，并且在与后处理技术如重新排序相结合时，性能得到了提升。

Abstract

In our study, we present bifurcated attention, a method developed for language model inference in single-context batch sampling contexts.

bifurcated attention language model inference memory io batch sampling latency reduction

发现论文，激发创造

机器阅读理解的双向注意力流

本文介绍了双向注意力流 (BIDAF) 网络，它是一个多阶段分层过程，在不进行早期汇总的情况下，用双向注意力流机制表示不同粒度级别的上下文，并获得了查询感知的上下文表示。实验结果表明，该模型在 Stanford Question Answering Dataset (SQuAD) 和 CNN/DailyMail cloze 测试中取得了最先进的结果。

Nov, 2016

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

利用固定大小的记忆表示进行高效注意力

本研究提出一种新的基于固定大小内存表示的注意力机制，能在不降低模型性能的情况下显著提高模型的实时性能，并能学习到有效的对齐方式。

Jul, 2017

SparQ 注意力：高带宽效率的 LLM 推理

通过选择性提取缓存历史记录，使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量，减少注意力块中的内存带宽需求，同时无需修改预训练设置或进行额外的微调，通过在多个下游任务上评估 Llama 2 和 Pythia 模型，展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。

Dec, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

简单线性注意力语言模型平衡召回 - 吞吐量的权衡

通过应用实验和理论到广泛的架构上，我们发现语言模型的状态大小与召回能力之间存在关键权衡。我们提出了一种名为 BASED 的简单架构，结合了线性和滑动窗口的注意力机制，通过改变窗口大小和线性注意力特征维度，我们可以在召回 - 内存权衡曲线的帕累托边界上调整状态大小。我们训练了多达 13 亿参数的语言模型，并表明 BASED 在困惑度上与最强的次二次模型相匹配，在现实世界的召回密集型任务中，其准确性超过了它们 6.22 个百分点。

Feb, 2024

反思读者：门控多跳注意力推理

提出了一种基于 BiDAF 模型的 Ruminating Reader，通过增加多层注意力机制和信息融合组件来解决单次模型无法反思和纠正答案的问题。实验结果表明该模型在 SQuAD 数据集上显著优于基线模型，且超过了所有其他已发表的系统的性能。

Apr, 2017

超级关注力：近线性时间的长篇长文本关注力

我们提出了一个名为 HyperAttention 的近似注意力机制，用于解决大型语言模型（LLMs）中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度，我们能够实现线性时间采样算法，即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计，容易集成其他快速底层实现，特别是 FlashAttention。实证上，通过利用局部敏感哈希（LSH）来识别大条目，HyperAttention 优于现有方法，在与 FlashAttention 等最先进解决方案相比，获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能，例如，ChatGLM2 的推理时间得以加快 50％，而困惑度从 5.6 增加到 6.3。对于更大的上下文长度，例如 131k，并采取因果屏蔽，HyperAttention 在单个注意层上实现了 5 倍的加速。

Oct, 2023

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

ABC: 有界记忆力控制的注意力

研究报告探讨了如何提高 Transformer 结构在处理长序列任务时的效率问题，提出了一种称为带有有限存储控制的注意力机制的抽象方法，并实现了学习性的上下文记忆优化，实验证明其可显著提高长序列任务的处理效率。

Oct, 2021