May, 2024

OMPO:一种面向策略和环境变化的强化学习统一框架

TL;DR用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战,现有研究往往忽视由策略或动力学变化引起的分布差异,或依赖于带有任务先验知识的专门算法,从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略:转移占用匹配。对此,我们通过考虑转移占用差异引入了一个代理策略学习目标,并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化(OMPO),它具有专门的演员 - 评论家结构,配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验,包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明,OMPO 在所有设置中优于不同类别的专业基准。我们还发现,当与领域随机化结合时,OMPO 表现出特别强的性能,突显了其在基于强化学习的机器人应用中的潜力。