Feb, 2024
快速:量化感知的交错和无冲突内核用于高效 LLM 推理
QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference
Taesu Kim, Jongho Lee, Daehyun Ahn, Sarang Kim, Jiwoong Choi...
TL;DRQUICK 是一组新型优化的 CUDA 内核,用于高效推理量化的大型语言模型。QUICK 解决了现有混合精度矩阵乘法内核中的共享内存冲突问题,通过离线交错量化的权重矩阵跳过解量化后的共享内存写回。我们展示了在较大批次上相对于 AutoAWQ 现有内核的高达 1.91 倍的加速效果,并在各种 NVIDIA GPU 设备上相对于代表性 LLM 模型获得高达 1.94 倍的吞吐量提升。