May, 2024

PV-Tuning:用于极高 LLM 压缩的超越直通估计的方法

TL;DR该研究提出了 PV-Tuning,一个对于极端压缩语言模型的量化感知微调策略的表示无关框架,通过在实践中应用于 1-2 位矢量量化,PV-Tuning 在高性能模型如 Llama 和 Mistral 中优于先前的技术,实现了 Llama 2 系列模型每个参数 2 位的帕累托最优量化。