Jan, 2023

基于成对或 K 个比较的人类反馈的有原则强化学习

TL;DR我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候,最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而,我们表明,在基于学习的奖赏模型的策略时,MLE 失败,而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外,我们证明在 PL 模型下,真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外,真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功,并为算法设计提供了新的见解。此外,我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题,并为 max-entropy IRL 提供了第一个样本复杂度上界。