BriefGPT.xyz
Ask
alpha
关键词
shared memory bank-conflict problem
搜索结果 - 1
快速:量化感知的交错和无冲突内核用于高效 LLM 推理
QUICK 是一组新型优化的 CUDA 内核,用于高效推理量化的大型语言模型。QUICK 解决了现有混合精度矩阵乘法内核中的共享内存冲突问题,通过离线交错量化的权重矩阵跳过解量化后的共享内存写回。我们展示了在较大批次上相对于 AutoAWQ
→
PDF
5 months ago
Prev
Next