Oct, 2023

可训练的等效转换:用于 LLMs 的量化

TL;DR这篇论文介绍了一种可训练的等价转换方法,能够在保持模型输出的 FP32 精度的情况下,利用低精度量化,特别是 3 位和 4 位的权重量化来满足现代架构的计算需求,该方法在训练过程中轻量级且对推断过程没有计算开销,与当前最先进方法的结果相媲美,并可与其他方法结合以获得更好的性能。