May, 2023

借助人类反馈的强化学习:通过悲观主义学习动态选择

TL;DR本文提出了一种基于动态离散选择模型的离线强化学习算法,通过最大似然估计来估计人类行为策略和状态 - 动作价值函数,通过最小化贝尔曼均方误差来恢复人类奖励,然后调用悲观值迭代算法来寻找接近最优的策略。该算法是离线 RLHF 的理论担保,并且在数据集只有单个策略覆盖的情况下,与经典的悲观离线 RL 算法相比,其次优性几乎相同,且具有对分布转移和维度依赖性的理论保证。