Jul, 2024

MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充

TL;DR通过识别长上下文注意力矩阵中的独特模式(A形、垂直斜线和稀疏块),并利用GPU上的稀疏计算方法,我们提出了MInference(百万令牌推理),以显著减少长上下文大型语言模型的预填充阶段的延迟。