提出了一种用于 c-MARL 算法的鲁棒性测试框架 MARLSafe,此框架能够全面从三个方面(状态鲁棒性、行动鲁棒性和奖励鲁棒性)进行测试,以及多方面提出了用于 c-MARL 攻击的鲁棒性测试算法。实验证明,许多最新的 c-MARL 算法在所有方面的鲁棒性都较低,因此迫切需要测试和提高 c-MARL 算法的鲁棒性。
Apr, 2022
本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性,我们的方法能够更有效地对付对抗攻击,并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法,可以通过选择受害 - 智能体的策略来增强攻击效果。
Feb, 2022
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020
在多智能体强化学习中,本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题,提出鲁棒性的解决方案,并设计了两种算法,RMAQ 和 RMAAC,用于处理高维状态 - 动作空间,在存在状态不确定性下,实验证明这两种算法在多智能体环境中表现出色。
Jul, 2023
提出了一种新颖的基于 DE 的关键代理的 Robustness Testing 框架,用于生成关键代理的对抗性状态扰动,是第一个具有不同受害者代理的鲁棒性测试框架,表现出对受害者代理数量和破坏合作策略方面的卓越性能。
Jun, 2023
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同,具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。
Feb, 2024
研究了在未知环境下的决策问题,使用分布式多智能体强化学习和条件风险价值的方法进行决策,并通过模拟评估验证了该方法。
Apr, 2023
该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作,并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法,通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。
Oct, 2023
本研究提出两种安全性保障方法,并对多智能体强化学习进行了实验验证。结果表明,这两种方法可以在不损害智能体学习质量的情况下保证其安全,其中,基于因式分解的屏蔽方法在智能体数量上更具可扩展性。
Jan, 2021