ICMLJun, 2024

离线强化学习中基于示例的最优订单界限与偏好反馈

TL;DR我们提出了一种称为 RL-LOW 的算法,用于处理离线强化学习中的优化动作问题,针对偏好反馈情况下的线性未知参数隐式奖励,提出了实例相关的上下界并拓展到隐私保护设置。