Apr, 2021

DisCo RL: 面向通用策略的分布条件强化学习

TL;DR本文提出了一种基于目标分布的通用任务表征方法,通过该方法可以实现针对不同任务的灵活重用技能,并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明,该方法显著优于先前的方法,尤其是需要对新目标分布进行泛化的任务。