ICLROct, 2022

多任务策略训练中的简单自发行为表示

TL;DR该论文研究了深度强化学习中低级感知和运动信号的表示方法,提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间,并在此基础上进行高级别指令的执行规划,实验结果表明该方法优于现有强基线方法,具有较强的任务适应能力。