ICLRJul, 2021

通过乐观探索学习更多技能

TL;DR用不需要外在奖励的无监督技能学习目标让智能体学会丰富的行为方式。通过同时训练一个生成策略和一个判别模型来实现,其中的困难在于探索新的状态时,判别模型没有足够的数据用于准确地分类技能,我们通过训练一个判别模型的集合并奖励生成策略来解决此问题。我们称之为 DISDAIN 探索奖励,它的表现证明在传统奖励方法中更加有效。