Sep, 2020

物理嵌入式规划问题:强化学习的新挑战

TL;DR通过在物理引擎中嵌入具有挑战性的符号任务(Sokoban,井字棋和围棋),引出了一组需要长时间视觉、推理和电机控制的任务,研究了现有的强化学习算法在这样的物理系统中的表现。同时,研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示,缩小抽象规划和物体控制之间的差距的方案。