May, 2024

一种适用于所有的 QuantLLM: 为高效部署而进行的量化 LLM 微调

TL;DR利用一次训练的一揽子模型,通过去耦合共享权重、使用低秩适配器、调节采样率等方式,减少大型语言模型的内存需求和训练时间,同时保持高性能。