Nov, 2023
分歧的令牌指标:测量退化以剪枝LLM组件并优化量化
Divergent Token Metrics: Measuring degradation to prune away LLM
components -- and optimize quantization
TL;DR通过引入Divergent Token metrics (DTMs)方法,本研究探索了对大型语言模型进行压缩的方法,并评估了压缩后模型的文本生成质量。结果表明,可以在不损害文本生成质量的情况下达到显著的精确度和稀疏度水平,而且DTMs可以更精确地评估模型各组件的影响。使用第一分歧标记度量(FDTM)进行模型稀疏化分析发现,可以剪枝超过90%的组件。在量化方面,FDTM建议可以将超过80%的参数直接转换为int8,而无需特殊的异常值管理。