Jun, 2024
通过张量分解和运行时重新定量化加速大型语言模型
Tender: Accelerating Large Language Models via Tensor Decomposition and
Runtime Requantization
TL;DR基于算法和硬件协同设计的解决方案Tender,能够以低精度有效部署LLM推理,通过分析LLMs中的异常值,提出了一种分解的量化技术,其分解矩阵的尺度因子相隔为二的幂,该方案避免了显式的重新量化,并且在现有加速器中具有更高的准确性和推理性能,同时降低了干扰。