- 利用单元级注意状态表示增强协作多智能体强化学习的价值分解
该研究提出了一种名为 UNSR 的方法用于协作多智能体加强学习中通过局部观察产生紧凑的潜在表示进行协调和提高价值分解效率,结果表明该方法比基线算法在 StarCraft II 微观管理挑战中具有更好的性能和数据效率,并且额外的消融实验帮助确 - AAAI进化生成辅助对抗攻击者实现鲁棒的多智能体协调
该研究提出了一种名为 ROMANCE 的方法,通过演化生成辅助对抗攻击者,使训练的策略在训练期间遭遇多样性和强大的辅助对抗攻击,从而实现对策略扰动的高鲁棒性。该方法在多种场景中表现出与其他基准方法相当甚至更好的鲁棒性和泛化能力。
- 基于逐步任务情境化的多智能体持续协调
本文提出了一种名为 MACPro 的方法,通过采用分解的策略来实现多智能体不断协调的能力,支持多类任务进行更好地管理和学习,并且在多项多智能体基准测试中表现出近乎最优的性能。
- STAS: 多智能体强化学习的时空回报分解
提出了一种名为 Spatial-Temporal Attention with Shapley(STAS)的新方法,该方法可以在时间和空间维度上学习信用分配,在多智能体强化学习中实现有效的空间 - 时间信用分配,优于所有现有的基线。
- 多智体价值分解中的冗余挑战
通过使用层次相关传播,我们将联合价值函数的学习与本地奖励信号的生成分开,提出了一个新的合作多智能体增强学习算法:相关分解网络。我们发现,尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低,但 RDN 则不受影响。
- ICLR多智能体强化学习中的廉价交流发现与利用
本文针对合作多智能体增强学习方法中,通过便宜谈话渠道实现智能体之间的通信的问题,提出了一种基于互信息最大化的算法,分别对便宜话探测和利用进行了研究,并在这两个部分都优于现有算法的前提下,开发出一种新的框架,还发布了一套新的基准测试套件以刺激 - 基于贪心边际贡献计算的适应值分解用于协同多智体强化学习
本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结 - AAAI合作多智能体强化学习的认证策略平滑化
提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。
- 通过 Q 学习解决连续控制问题
本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解,从而将 Q-learning 方法应用于高维连续动作空间的情况,能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌,并在多种连续 - 具有状态的主动协调器:协作多智能体强化学习中的协调和环境异质性
本研究提出了一个多智能体协作系统,使用 HE COGrid 评估了不同 MARL 方法的表现,并通过 SAF 的中心化训练去集中协调,并在不同环境异构性的情况下执行,得出了 SAF 在不同的任务和协调水平下总是表现出色相比于其他方法。
- ICLR更集中化的训练,仍分散化的执行:多智能体条件策略分解
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家,并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的 - 异质代理镜像学习:协作多智能体强化学习的一系列解决方案
本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的 MARL 算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在 - 从经验回放缓冲生成子目标的多智能体强化学习
本论文提出了一种名为 MASER 的新方法,它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明,与其他最先进的 MARL 算法相比,MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。
- ICML合作多智能体强化学习中常见实践的重新审视
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策 - 通过测量合作多智能体 RL 中角色多样性进行策略诊断
通过量化角色多样性作为度量多智能体任务特征的因素,我们发现,MARL 中的误差限可以分解为 3 个部分,并且这些分解因素对 3 个热门方向的政策优化具有显著影响,通过 MPE 和 SMAC 平台的实验验证,角色多样性可以作为多智能体协作任务 - 多智能体强化学习中的稀疏对抗攻击
本篇论文介绍了 cMARL 系统中的稀疏对抗攻击方法,并探究了该方法的训练策略与效果。实验结果表明,该方法能够显著降低 cMARL 系统中受到少量攻击智能体的性能。
- 同质化马尔可夫博弈的高效通信演员 - 评论方法
该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员 - 评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。
- 合作多智能体强健性评估:基于模型的方法
本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性,我们的方法能够更有效地对付对抗攻击,并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法,可以通过选择受害 - 智能 - 协作异构多智能体强化学习的均场控制近似
本论文介绍了平均场控制理论(Mean field control)在解决包含 $N_{pop}$ 个异构 agents 的协作多智能体强化学习问题中的应用,提出了三个不同的情况,分别考虑了错误率有不同的误差上限。最后,提出一个基于 自然策略 - ICLR通过信任区域分解应对 MARL 中的非平稳性
本文提出一个名为 TRD-Net 的模型和基于其的 MAMT 算法,通过控制联合策略的变化,减轻非平稳性问题,此方法稳定性及性能比基线模型更好。