合作多智能体强化学习的认证策略平滑化

AAAIDec, 2022

合作多智能体强化学习的认证策略平滑化

Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement Learning

Ronghui Mu, Wenjie Ruan, Leandro Soriano Marcolino, Gaojie Jin, Qiang Ni

TL;DR提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。

Abstract

cooperative multi-agent reinforcement learning (c-MARL) is widely applied in safety-critical scenarios, thus the analysis of robustness for c-MARL models is profoundly important. However, robustness certification

cooperative multi-agent reinforcement learning robustness certification false discovery rate tree-search-based algorithm state-of-the-art rl certification solutions

发现论文，激发创造

合作多智能体强化学习鲁棒性综合测试

提出了一种用于 c-MARL 算法的鲁棒性测试框架 MARLSafe，此框架能够全面从三个方面（状态鲁棒性、行动鲁棒性和奖励鲁棒性）进行测试，以及多方面提出了用于 c-MARL 攻击的鲁棒性测试算法。实验证明，许多最新的 c-MARL 算法在所有方面的鲁棒性都较低，因此迫切需要测试和提高 c-MARL 算法的鲁棒性。

Apr, 2022

合作多智能体强健性评估：基于模型的方法

本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性，我们的方法能够更有效地对付对抗攻击，并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法，可以通过选择受害 - 智能体的策略来增强攻击效果。

Feb, 2022

合作多智能体强化学习的鲁棒性研究

本文通过针对一名特定智能体的定向攻击，研究了协作多智能体强化学习系统的不稳定性，同时引入了一种新的攻击方式，在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。

Mar, 2020

具有状态不确定性的鲁棒多智能体强化学习

在多智能体强化学习中，本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题，提出鲁棒性的解决方案，并设计了两种算法，RMAQ 和 RMAAC，用于处理高维状态 - 动作空间，在存在状态不确定性下，实验证明这两种算法在多智能体环境中表现出色。

Jul, 2023

多智能体强化学习的鲁棒性测试：对关键智能体进行状态扰动

提出了一种新颖的基于 DE 的关键代理的 Robustness Testing 框架，用于生成关键代理的对抗性状态扰动，是第一个具有不同受害者代理的鲁棒性测试框架，表现出对受害者代理数量和破坏合作策略方面的卓越性能。

Jun, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Feb, 2024

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

多模态环境不确定性下使用课程学习提高多智能体强健性

该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作，并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法，通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。

Oct, 2023

通过屏蔽实现安全的多智能体强化学习

本研究提出两种安全性保障方法，并对多智能体强化学习进行了实验验证。结果表明，这两种方法可以在不损害智能体学习质量的情况下保证其安全，其中，基于因式分解的屏蔽方法在智能体数量上更具可扩展性。

Jan, 2021