离线基于偏好的学徒学习
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。
Jun, 2024
本篇论文提出了一种离线强化学习方法,通过利用多样化的人机交互行为,在不需要在线训练或高保真模拟器的情况下,学习一些对人类行为产生积极影响的策略,从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。
Mar, 2023
该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
May, 2023
采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。
Jun, 2024
本文介绍了一种称为 OAP 的无交互培训方案,该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制,从而更准确地评估未见数据,实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分(平均增加 29%),特别是在具有挑战性的 AntMaze 任务上(增加 98%)。
Jun, 2023
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021