May, 2018

截断视野策略搜索:结合强化学习与模仿学习

TL;DR研究围绕奖励塑造的概念,提出了将模仿学习和强化学习相结合的新思路,通过近似最优的代价预测器将其融合,形成Truncated HORizon Policy Search (THOR)方法,以搜索对于近似最优代价预测器的有限规划下实现最大总重构奖励的策略。实验证明了THOR可以在代价预测器不是全局最优的情况下取得比强化学习和模仿学习更好的表现。