Jun, 2023

使用动作偏好查询提升离线强化学习

TL;DR本文介绍了一种称为 OAP 的无交互培训方案,该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制,从而更准确地评估未见数据,实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分(平均增加 29%),特别是在具有挑战性的 AntMaze 任务上(增加 98%)。