BriefGPT.xyz
Ask
alpha
关键词
prefilling
搜索结果 - 2
MInference 1.0: 通过动态稀疏注意力加速长上下文 LLM 的预填充
通过识别长上下文注意力矩阵中的独特模式(A 形、垂直斜线和稀疏块),并利用 GPU 上的稀疏计算方法,我们提出了 MInference(百万令牌推理),以显著减少长上下文大型语言模型的预填充阶段的延迟。
PDF
4 days ago
预打包:大语言模型快速预填和增加吞吐量的简单方法
使用 Prepacking 方法优化 transformer-based 大型语言模型的 prefilling 计算,通过将不同长度的输入 prompt 组合成一个序列,并使用 bin-packing 算法将多个序列打包成一个紧凑的批次,从
→
PDF
3 months ago
Prev
Next