多智能体强化学习中基于内在奖励的协调探索
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
Oct, 2022
研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用,提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法,并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。
Feb, 2020
本研究结合内在动机和传递学习的思想,探讨了基于行动者 - 评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。
Feb, 2022
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可靠实现,并通过深入研究确定了关键的实现细节和合理的标准实践,填补了相关领域的研究空白。
May, 2024
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
本文提出一种新的内在奖励方式,鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动,这种方法在稀疏回报和面向过程环境中的探索中更加高效。
Feb, 2020
多智能体深度强化学习中,稀疏奖励与智能体之间的协调是挑战,本文提出了一种基于联合行为的奖励策略,并通过 JIM 方法展示了多智能体内在动机在解决需要高协调水平的任务中的重要性。
Feb, 2024