AAAIDec, 2023

CUDC: 一种基于好奇心驱动的自适应时间距离的离线强化学习的数据收集方法

TL;DR该论文提出了一种基于好奇心驱动的无监督数据收集方法,通过自适应的时间距离扩展特征空间,从而提高多任务离线强化学习的效率和能力。该方法通过估计 k 步未来状态从当前状态可达的概率,并调整动力学模型预测的未来步数,实现自适应可达性机制,从而实现特征表示的多样化,使智能体能够通过好奇心导航自己收集更高质量的数据。经实验证明,该方法在 DeepMind 控制套件的各种下游离线强化学习任务中超越了现有的无监督方法,在效率和学习性能上表现出色。