Oct, 2018

基于能量的追溯经验优先化

TL;DR本论文提出了一种基于能量的框架,根据目标状态的轨迹能量来优先考虑重新播放的经验,取得了在四个机器人操作任务上表现和样本效率均优于现有研究方法的成果。