ICLRMar, 2017

通过非对称自对弈实现内在动机和自动课程学习

TL;DR通过提出动态协同(Alice 和 Bob)的兴趣课程,使用一种适当的奖励机制,有效地进行无人监督的强化学习,用于环境感知系统中的智能体的训练