网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

Feb, 2024

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative Markov Games

Hafez Ghaemi, Hamed Kebriaei, Alireza Ramezani Moghaddam, Majid Nili Ahamdabadi

TL;DR使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Abstract

Classical multi-agent reinforcement learning (MARL) assumes risk neutrality and complete objectivity for agents. However, in settings where agents need to consider or model human economic or social preferences, a notion of risk must be incorporated into the RL optimization problem. Thi

multi-agent reinforcement learning risk-sensitive cumulative prospect theory actor-critic algorithm markov perfect nash equilibrium

发现论文，激发创造

马尔可夫游戏和多智能体强化学习中的风险敏感性：一项系统综述

Markov games 和 multi-agent reinforcement learning 研究了多智能体系统中的决策制定模型。本文系统回顾了最近几年在 risk-sensitive MG 和 MARL 领域中增长的相关文献，并定义和数学描述了在 MG 和 MARL 中使用的不同风险度量，并讨论了各个度量所涵盖的文章。最后，我们识别了该领域理论和应用研究的最新趋势，并讨论了未来研究的可能方向。

Jun, 2024

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

有限制马尔可夫潜在博弈中可证明学习纳什策略

本文提出了一种名为 CA-CMPG 的算法，它可以通过 Coordinate-Ascent 方式收敛到表格型、有限时间段的 CMPGs 的 Nash 策略，并提供了第一个适用于 CMPGs 的样本复杂度边界和安全探索的额外假设。

Jun, 2023

合作多智能体强化学习的鲁棒性研究

本文通过针对一名特定智能体的定向攻击，研究了协作多智能体强化学习系统的不稳定性，同时引入了一种新的攻击方式，在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。

Mar, 2020

合作多智能体强化学习鲁棒性综合测试

提出了一种用于 c-MARL 算法的鲁棒性测试框架 MARLSafe，此框架能够全面从三个方面（状态鲁棒性、行动鲁棒性和奖励鲁棒性）进行测试，以及多方面提出了用于 c-MARL 攻击的鲁棒性测试算法。实验证明，许多最新的 c-MARL 算法在所有方面的鲁棒性都较低，因此迫切需要测试和提高 c-MARL 算法的鲁棒性。

Apr, 2022

合作多智能体强化学习的认证策略平滑化

提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。

Dec, 2022

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

针对对手感知的去中心化网络多智能体强化学习算法

研究了去中心化的多智能体强化学习算法，引入了对抗性智能体对共识更新的漏洞，并提出了一种算法，使得非对抗性智能体在受限制的情况下达成共识。

May, 2023

具势函数的非零和随机博弈中的学习

本文介绍了一种新一代的多智能体强化学习方法 SPot-AC，可用于处理非零和付结构和连续设置的随机潜在游戏中，证明了该方法能够使独立代理人在多项式时间内学习纳什均衡策略，在 Coordination Navigation 和大规模自私路由游戏等难以解决的任务方面表现出色，并在这些场景中优于 MADDPG 和 COMIX 等前沿方法。

Mar, 2021