元 - 强化学习任务的大规模参数化空间
本文提出了一个开源的模拟基准测试,包含 50 个不同的机器人操作任务,以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现,发现这些算法在解决多任务时仍存在挑战,为未来的研究提供了实验环境。
Oct, 2019
本研究提出了一种新的参数化技能学习算法,此算法可以学习可转移的参数化技能并将其综合到新的行动空间中,从而支持长视深远任务的高效学习。经实证表明,这种方法可以使代理人解决一组困难的长视深远任务。
Jun, 2022
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本文提出了一种新的元强化学习算法,称为 Meta Goal-generation for Hierarchical RL (MGHRL),通过学习给定过去经验的高层次元策略来生成子目标,而将如何实现子目标留给独立的强化学习子任务来完成,实验结果表明,该算法可以更有效地从过去的经验进行元学习。
Sep, 2019
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
Jun, 2022
本研究提出了一种 meta-RL 方法,通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力,使用任务编码器生成任务嵌入并在所有任务之间共享策略,实现在训练和新任务上的更好学习能力和更高回报率。
May, 2019
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning),通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap),以及使用最大化次优性策略的对抗任务找到最优策略,以提高元强化学习算法在任务分布变化下的泛化能力和性能效率,试验表明该算法具有优异性能。
Jun, 2020
Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.
Jun, 2024