通过对比学习实现离线元强化学习的稳健任务表示
离线元强化学习(OMRL)通过仅依赖静态数据集,使代理程序能够有效应对新任务。然而,许多现有的 OMRL 方法中,学到的任务表示往往与行为策略产生虚假相关,而非准确反映任务的本质特征。为了解决这个问题,我们提出了一种新的算法,通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响,并实现了令人满意的分布外泛化。
Mar, 2024
我们研究了强化学习中的离线多任务表示学习,理论上研究了离线多任务低秩强化学习,并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外,我们还研究了奖励缺失、离线和在线情景下的下游强化学习,在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。
Mar, 2024
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
May, 2024
本文介绍了离线元强化学习(OMRL)的上下文基础,特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器,实验结果表明,与基线方法相比,在多个不同的连续控制任务中,使用我们的技术可以得到更强壮的任务表示和更好的测试性能。
Apr, 2023
我们研究了离线强化学习中的表示转移问题,提出了一种算法来计算学习表示的点态不确定性度量,并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题,并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估,展示了惩罚和量化学习表示中的不确定性的益处。
Feb, 2024
本文针对离线强化学习中的元学习问题,通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性,从而改进了现有算法,并在多个元强化学习基准测试中展示了优越的性能和稳健性。
Feb, 2021
本文提出了基于对比学习的强化学习算法,通过学习动作标记的轨迹对比学习来直接获得好的表示,并成功地将其应用于目标条件 RL 任务。在一系列任务中,对比 RL 方法表现更好,且不需要使用数据增强或辅助目标。
Jun, 2022
本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。
Jul, 2021
GENTLE 是一种用于解决在有限数据条件下学习可推广任务表征的新算法,它利用 Task Auto-Encoder 通过重构状态转换和奖励来捕捉任务模型的生成结构,并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明,在分布内和分布外任务上,GENTLE 方法在给定上下文协议和一次性协议下明显优于现有的离线元强化学习方法。
Dec, 2023