ICMLJun, 2019

基于差异性的自监督探索

TL;DR提出了基于活跃学习文献中的一种探索式学习方法,该方法使用动态模型集成,通过最大化这些集成之间的差异性来训练智能体,从而使该智能体自我监督地学习技能,无需外部奖励,并且还利用该探索方法来优化代理的策略而不使用强化学习