Jun, 2023

PEAR: 用于增强分层强化学习的原语启用自适应重新标记

TL;DR本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法,称为 primitive enabled adaptive relabeling (PEAR),其首先对少量的 expert demonstrations 进行自适应 relabeling,以生成子目标监督数据集,然后采用 imitation learning 来规范化 HRL agents,此方法可以被轻松地集成到典型的 model free reinforcement learning 算法中以解决大多数机器人任务。