relative entropy coding (REC) algorithms encode a random sample following a
target distribution $Q$, using a coding distribution $P$ shared between the
sender and receiver. Sadly, general rec algorithms suffer fr
本文介绍了一种基于状态熵作为内在奖励的随机编码器(Random Encoders for Efficient Exploration,RE3)的探索方法,旨在解决高维观察空间中的有效探索问题,并在 DeepMind Control Suite 和 MiniGrid 基准测试的行动和导航任务中得到了显著的样本效率改进,并且在无外部奖励的情况下,可以学习多样化的行为。