Oct, 2023

SuperHF:基于人类反馈的监督式迭代学习

TL;DR基于大型语言模型对齐的一种新方法SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点,并通过替换PPO算法和引入KL divergence先验,提出了一种新的训练方法。实验结果表明,SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF,具有竞争力的语言模型对齐技术。