Feb, 2024

BitDelta:你的微调可能只相当于 1 个比特

TL;DR通过将精调模型的权重分解为预训练组件和附加的增量,我们引入了一种简单的方法 BitDelta,成功地将该增量量化为 1 位而不影响性能,从而减少 GPU 内存需求,并在多租户环境中提高生成延迟。我们通过 Llama-2 和 Mistral 模型系列的实验证实了 BitDelta,在 70B 参数的模型上展示了在所有测试环境中性能降低最小。