Feb, 2025
LServe:统一稀疏注意力的高效长序列LLM服务
LServe: Efficient Long-sequence LLM Serving with Unified Sparse
Attention
TL;DR本研究解决了长序列大型语言模型(LLM)在预填充阶段的计算复杂度和解码阶段的内存占用问题。提出的LServe系统通过混合稀疏注意力加速LLM服务,融合了不同的稀疏模式,为预填充和解码阶段的注意力计算提供了统一框架。研究表明,该系统可以在保持长序列精度的同时,使LLM预填充速度提升近2.9倍,解码速度提升1.3-2.1倍。