Feb, 2020

强化学习的无奖励探索

TL;DR该论文提出了一个新的 “无奖励强化学习” 框架,通过在探索阶段从 MDP 采集轨迹来找到探索策略,并使用黑盒近似规划器计算接近最优的策略。