在这篇研究中,我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题,该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态,我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。
Jun, 2022
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
RAPID 是为了针对面向过程的生成环境重复性不高的情况,适用于强化学习的全集探索评估方法。我们的实验显示,RAPID 在提高样本效率和最终性能方面,显著优于当前最先进的基于内部奖励的策略。
Jan, 2021
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019
本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响,强调这些设计方面的谨慎选择以及环境和任务的探索要求,以保证公正比较。
May, 2022
本论文提出一种基于条件互信息的探索奖励方法 (DEIR),实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。
Apr, 2023
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
Nov, 2022
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可靠实现,并通过深入研究确定了关键的实现细节和合理的标准实践,填补了相关领域的研究空白。
May, 2024