Sep, 2024

CHESS:通过通道阈值优化和选择性稀疏化优化LLM推理

TL;DR本研究解决了在边缘设备上部署大型语言模型(LLM)时面临的计算和内存要求问题。提出了一种新的激活稀疏化方法CHESS,通过通道阈值和选择性稀疏化优化激活决策。实验表明,CHESS在保持性能的同时,较现有方法降低了参数激活数量,从而实现了最高1.27倍的推理加速。