基于影响力的多智能体探索
本论文提出一种基于条件互信息的探索奖励方法 (DEIR),实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。
Apr, 2023
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
本文提出了一种基于强化学习的多智体合作算法,特别着重于个体化。这种算法学习一个概率分类器来预测代理人身份,从而赋予每个代理人固有的动机,鼓励代理人访问自己熟悉的观测,促进个体性的出现,并在多种多智体协同情景中显著优于现有方法。
Jun, 2020
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
Nov, 2022
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022
通过使用一种新的方法,称为 Imagine, Initialize, and Explore (IIE),该方法使用转换模型使多个智能体达到关键状态,并以此为起点进行探索,实现高效多智能体探索。在实际测试中,IIE 在复杂环境下表现出优异的性能,超过了其他多智能体探索基线,特别在稀疏奖励任务中有更好的表现,并产生比 CVAE-GAN 和扩散模型更有效的课程。
Feb, 2024
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
Oct, 2022