Apr, 2023

RPTQ: 基于重排序的后训练量化方法用于大型语言模型

TL;DR本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。