Jun, 2023

使用前驱和后继表示的最大状态熵探索

TL;DR研究了一种基于过去经验的探索学习方法,通过最大化单个轨迹的状态访问分布的熵来学习探索策略,并证明了此方法在有限样本下最大化状态覆盖的有效性。