提出了广义决策转换器(GDT)以解决HIM问题,该方法能够从轨迹数据中提取多任务策略。 GDT不仅恢复了决策转换器(DT)作为特殊情况,还引入了新的分类DT(CDT)和双向DT(BDT)以匹配未来的不同统计信息,并在MuJoCo连续控制基准测试中得到了很好的应用。
Nov, 2021
本文研究强化学习中的奖励函数的学习,提出了利用先验知识和偏好数据约束奖励函数的PRIOR框架,可以降低50%的反馈数量并提高奖励函数学习和代理性能。
Oct, 2022
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处,并且状态重要性在前向动力学预测中是决策偏好的强有力指标。
Apr, 2024
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线RL算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线PBRL算法的学习效果。
Jun, 2024
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了Sim-OPRL的经验性能。
基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。
本研究解决了在偏好强化学习中如何精确设计奖励函数的问题,特别是与人类意图的对齐。我们提出了一种新的离线偏好强化学习方法——列表奖励估计(LiRE),通过构建轨迹的排序列表来利用二阶偏好信息。实验结果表明,LiRE超越了现有的最先进基线,在反馈预算有限的情况下仍表现出色,并在反馈数量和噪声方面展现出鲁棒性。
Aug, 2024