Mar, 2024

单一背景大批量采样的分叉注意力

TL;DR我们的研究提出了分叉注意力,这是一种用于单一上下文批次采样环境中的语言模型推断的方法。该方法通过将注意机制在增量解码过程中划分为两个不同的 GEMM 操作,分别聚焦于预装填的 KV 缓存和解码过程,以降低冗余的内存 IO 成本,从而实现精确计算并保持标准注意机制的常规计算负载(FLOPs),但减少内存 IO。分叉注意力还与已知用于降低内存 IO 的多查询注意力机制兼容,进一步支持更大的批次大小和上下文长度。因此,该方法的高效性能导致更低的延迟,提高了其适用性,例如在实时应用中实现了并行的答案生成,而不会显著增加延迟,并且在与后处理技术如重新排序相结合时,性能得到了提升。