个体性的出现
提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制,通过使用反事实推理来评估因果影响,结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强,同时增加了深度强化学习代理的学习曲线,并且在学习沟通协议方面也更有意义。
Oct, 2018
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文提出了在多个智能体环境中,为每个RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准RL和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
本篇论文提出了Episodic Multi-agent 强化学习方法,并把个体 Q 值预测误差作为内部奖励,使用情节式记忆从经验中提升策略训练,从而实现多代理协作性问题的有效探索和高效学习。在StarCraft II 微型管理基准测试中,我们的方法显著优于现有情况下的MARL基线。
Nov, 2021
本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的MARL算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自HAML模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在星际争霸II和多智能体MuJoCo任务中验证了HAML的实用性。
Aug, 2022
该研究探讨在分散型训练或稀疏奖励的情况下,提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调,这比基于好奇心的探索方法更加可行。
Oct, 2022
本研究提出一种基于互助的多智能体强化学习算法(MH-MARL),通过利用预期动作模块来促进代理之间的相互帮助,以提高在合作任务中的性能表现。通过实验结果表明,MH-MARL在成功率和累积奖励方面都提高了MARL的性能。
Feb, 2023
通过从因果关系的角度研究,本文探讨了多智能体强化学习中的懒惰代理问题,并将其与因果关系领域建立联系,通过实验证明个体观察与团队奖励之间存在因果关系,进一步提高多智能体强化学习中独立代理的性能和智能行为。
Nov, 2023
合作多智能体强化学习中个体代理的贡献度一直是一项具有挑战性的任务,而本文提出的Agent Importance方法通过计算个体代理的贡献度,其计算复杂度相对于代理数量呈线性增长,能够有效代替耗时的Shapley values方法。实证结果表明Agent Importance与真实的Shapley values及底层个体代理奖励具有较强相关性,并且可用于诊断多智能体强化学习系统中的算法失败情况,从而作为未来强化学习基准测试的一个有价值的可解释性组成部分。
Dec, 2023