ICMLFeb, 2021

利用随机编码器最大化状态熵以进行高效探索

TL;DR本文介绍了一种基于状态熵作为内在奖励的随机编码器(Random Encoders for Efficient Exploration,RE3)的探索方法,旨在解决高维观察空间中的有效探索问题,并在 DeepMind Control Suite 和 MiniGrid 基准测试的行动和导航任务中得到了显著的样本效率改进,并且在无外部奖励的情况下,可以学习多样化的行为。