Feb, 2024

基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察:高效数据利用

TL;DR基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF),该算法不假设对奖励函数有先验知识,并通过基于轨迹的比较反馈来推断奖励函数。我们提供了具有低查询复杂度的 PO-RLHF 的性能界限,从而揭示了为什么少量人类反馈可能足以获得良好的 RLHF 性能。我们的工作的一个重要创新是采用轨迹级椭圆势分析技术来推断比较查询下的奖励函数参数,而非使用奖励观测。我们在线性和神经函数逼近两种情景下提供和分析了算法:PG-RLHF 和 NN-PG-RLHF。