Oct, 2022

连续控制中的深度内在驱动探索

TL;DR本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空间,显著提高基线,明显优于非定向策略。