Feb, 2024

腐败鲁棒离线强化学习与人类反馈

TL;DR我们设计了一种新颖的对抗性鲁棒性离线强化学习方法,以处理具有不同数据生成分布覆盖假设的数据污染情况,通过学习奖励模型和置信区间,然后在置信区间内学习一个悲观的最优策略,实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。