ICLRApr, 2020

旋转不变运动的目标条件批量强化学习

TL;DR提出一种新颖的方法,使用批量 RL 设置学习目标条件策略,通过使用非目标条件策略收集批量数据,利用数据增强生成不同方向下相同动作的轨迹,并使用编码器学习不变性,从而学习到可让智能体在任何方向上行走的目标条件策略。