Jan, 2024

大型语言模型的私人微调与零阶优化

TL;DRDP-ZO 是一种维护训练数据隐私的方法,通过对零阶优化中步长的隐私化来对大型语言模型进行微调,可在保守的隐私预算下提供强大的隐私 - 效用权衡,且在 SQuAD 的 1000 个训练样本上,对 OPT-66B 的微调仅导致 1.86% 的性能降低。