Feb, 2024

通过主动偏好优化的可证明样本高效强化学习

TL;DR基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题,并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后,我们提出一种主动选择提示以收集偏好数据的算法( exttt {APO}),在 Bradley-Terry-Luce(BTL)偏好模型下, exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明,在给定采样预算 T 的情况下,通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来,我们提出了一种计算高效的 exttt {APO} 的批处理版本,并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案,以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。