May, 2024

RLeXplore: 加速内在动机驱动的强化学习研究

TL;DR在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可靠实现,并通过深入研究确定了关键的实现细节和合理的标准实践,填补了相关领域的研究空白。