Mar, 2021

虚空中的行为:无监督主动预训练

TL;DR通过在非有奖励的环境中最大化抽象表示空间中的非参数熵,APT 探索了环境,从而避免了具有挑战性的密度建模,并且在具有高维观察的环境中表现出色。在 Atari 游戏中,APT 在 12 种游戏上取得人类水平的性能,并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中,APT 在渐进性能和数据效率方面击败了所有基线,并显着提高了初学者难以从头开始培训的任务性能。