离线元强化学习的背景变化削减
本文介绍了离线元强化学习(OMRL)的上下文基础,特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器,实验结果表明,与基线方法相比,在多个不同的连续控制任务中,使用我们的技术可以得到更强壮的任务表示和更好的测试性能。
Apr, 2023
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
May, 2024
本文针对离线强化学习中的元学习问题,通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性,从而改进了现有算法,并在多个元强化学习基准测试中展示了优越的性能和稳健性。
Feb, 2021
离线元强化学习(OMRL)的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中,并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理,我们提出了一种新的算法称为 UNICORN,在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力,达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。
Feb, 2024
本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法应用于多种元强化学习基准测试中,展示了较为出色的性能。
Oct, 2020
离线元强化学习(OMRL)通过仅依赖静态数据集,使代理程序能够有效应对新任务。然而,许多现有的 OMRL 方法中,学到的任务表示往往与行为策略产生虚假相关,而非准确反映任务的本质特征。为了解决这个问题,我们提出了一种新的算法,通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响,并实现了令人满意的分布外泛化。
Mar, 2024
本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。
Jul, 2021
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。
Feb, 2022
本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能,并在三种不同的离线 RL 设置下进行了广泛的实验,验证了方法的高效性和普适性。
Nov, 2022
提出一种名为 CCM 的元强化学习框架,通过对比不同任务来训练一个精简有效的上下文编码器,并训练一个单独的探索策略和理论推导一个新的信息增益目标,从而在几步内收集信息丰富的轨迹。实验证明,CCM 通过分别解决之前提到的问题,优于现有算法。
Sep, 2020