多智能体深度强化学习的协作探索
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
本文提出了一种名为CM3的结构,包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度,具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。
Sep, 2018
本设计章介绍了 StarCraft Multi-Agent Challenge (SMAC) 作为实验问题,正式本测试环境可以提供一个标准的测试环境,并对deep multi-agent reinforcement learning 、partially observable cooperative multi-agent learning、单个传感器规则 等领域进行询问和分析。
Feb, 2019
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
本篇论文提出了Episodic Multi-agent 强化学习方法,并把个体 Q 值预测误差作为内部奖励,使用情节式记忆从经验中提升策略训练,从而实现多代理协作性问题的有效探索和高效学习。在StarCraft II 微型管理基准测试中,我们的方法显著优于现有情况下的MARL基线。
Nov, 2021
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的MARL算法的表现。
Oct, 2022
提出一种名为MACE的简单而有效的多智能体协同探索方法,通过仅传递本地新奇性,代理可以考虑其他代理的本地新奇性来近似全局新奇性,并引入加权互信息来衡量代理行为对其他代理累积新奇性的影响,在后见中将其转换为内在奖励,以鼓励代理对其他代理的探索产生更多影响并促进协同探索,并在三个稀疏奖励的多智能体环境中展示了MACE在性能上的优越性。
Feb, 2024
多智能体深度强化学习中,稀疏奖励与智能体之间的协调是挑战,本文提出了一种基于联合行为的奖励策略,并通过JIM方法展示了多智能体内在动机在解决需要高协调水平的任务中的重要性。
Feb, 2024
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问题,视频游戏和能源系统中的一个实际问题。实验证明,我们的框架即使在过渡模型误指定的条件下,也能达到更好的性能,此外,我们还建立了我们统一框架与联邦学习的实际应用之间的联系。
Apr, 2024
MESA 是一种新颖的元探索方法,通过从训练任务中识别代理的高奖励联合状态-动作子空间,然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明,通过学习到的探索策略,MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能,并具备在测试时泛化到更复杂任务的能力。
May, 2024