ICMLJun, 2024
离线强化学习中基于示例的最优订单界限与偏好反馈
Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback
Zhirui Chen, Vincent Y. F. Tan
TL;DR我们提出了一种称为 RL-LOW 的算法,用于处理离线强化学习中的优化动作问题,针对偏好反馈情况下的线性未知参数隐式奖励,提出了实例相关的上下界并拓展到隐私保护设置。