AAAINov, 2018

连续控制中前瞻探索的模型学习

TL;DR本文提出了一种探索方法,将先前学习的基本技能及其动态与前瞻性搜索相结合,用于操作策略的强化学习,并且表明该方法比当前最先进的 RL 方法更快地学习到复杂操作策略,并获得更好的策略收敛结果。