Sep, 2023

探索低秩调整对RLHF的性能、效率和正则化的影响

TL;DR通过使用低秩调整方法对 RLHF 进行改进,本研究使用仅两个 A100 GPU 就能够将 LLaMA 7B 检查点与 Alpaca 数据集对齐,并在仅调整了 0.2% 参数的情况下,比全模型微调的公开发布的 AlpacaFarm 检查点取得更好的性能。同时,我们发现 Jensen-Shannon 距离作为正则化项的效果更好,并且通过使用 LoRA 进行训练能够在一定程度上减少 PPO 训练对模型生成回答的准确性的负面影响。