多智能体深度强化学习的协作探索
提出一种名为 MACE 的简单而有效的多智能体协同探索方法,通过仅传递本地新奇性,代理可以考虑其他代理的本地新奇性来近似全局新奇性,并引入加权互信息来衡量代理行为对其他代理累积新奇性的影响,在后见中将其转换为内在奖励,以鼓励代理对其他代理的探索产生更多影响并促进协同探索,并在三个稀疏奖励的多智能体环境中展示了 MACE 在性能上的优越性。
Feb, 2024
MESA 是一种新颖的元探索方法,通过从训练任务中识别代理的高奖励联合状态 - 动作子空间,然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明,通过学习到的探索策略,MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能,并具备在测试时泛化到更复杂任务的能力。
May, 2024
通过使用一种新的方法,称为 Imagine, Initialize, and Explore (IIE),该方法使用转换模型使多个智能体达到关键状态,并以此为起点进行探索,实现高效多智能体探索。在实际测试中,IIE 在复杂环境下表现出优异的性能,超过了其他多智能体探索基线,特别在稀疏奖励任务中有更好的表现,并产生比 CVAE-GAN 和扩散模型更有效的课程。
Feb, 2024
本研究提出了一种基于强化学习的算法,引入了新颖的多智能体规划模块 MSP 和空间平移变换器 Spatial-TeamFormer,实现了多智能体协作视觉探测,经过政策蒸馏提取的元策略大大提高了最终策略的泛化能力,并在一个真实的 3D 模拟器 Habitat 中表现出比经典规划方法更好的性能。
Oct, 2021
本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。
Feb, 2018
本文提出了一种基于图通信的多智能体强化学习探索技术,通过邻近智能体的协作来估计状态 - 动作空间的不确定性,从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为,可以实现最小的信息交换和完全分散的通信方式,并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。
Apr, 2023
我们提出了一种异步的多智能体强化学习算法,Asynchronous Coordination Explorer (ACE),可以在处理机器人探索问题时减少实际探索时间,并通过使用基于 CNN 的策略将遗失的机器人维护在一个团队中。
Jan, 2023
提出了一种名为 SEAC 的算法,该算法应用经验共享策略来提高多智能体强化学习过程中的探索效率,实验结果表明,该算法在稀疏奖励的多智能体环境中,表现优于其他两种基线算法和两种现有算法,在更加困难的环境下甚至可以解决有些无法学会的任务。
Jun, 2020
在一个公共环境下,考虑一组同时运行的强化学习智能体,我们提出了一种适用于实际规模问题的高效协同探索方法,该方法建立在种子抽样和随机值函数学习的基础上,并证明该方法在简单表格式上与先前提出的表格式学习方法相当竞争力,在高维度问题和神经网络值函数表示的情况下,该方法可以通过使用更少的代理学习更快地进行探索比替代方法。
May, 2018