Feb, 2023

自监督利用探索

TL;DR本研究提出了一种基于内在动机的算法,采用自监督学习中的蒸馏误差作为新奇检测器,通过经验表明在十种难以探索的环境中,相对于基准模型,该方法能够更快地增长和获得更高的外部奖励,从而提高了在非常稀疏的奖励环境中的探索性能。