CuDA2: 将叛徒代理纳入合作多智能体系统的一种方法

Jun, 2024

CuDA2: 将叛徒代理纳入合作多智能体系统的一种方法

CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems

Zhen Chen, Yong Liao, Youpeng Zhao, Zipeng Dai, Jian Zhao

TL;DR对于合作多智能体强化学习（CMARL）策略容易受到对抗性干扰的问题，研究者们引入了一种名为 Traitor Markov Decision Process（TMDP）的模型作为现实场景下更真实的对抗性攻击方法。为了提高攻击效率，研究者们还提出了一种名为 Curiosity-Driven Adversarial Attack（CuDA2）的框架，其中 Random Network Distillation（RND）模块对攻击者提供额外的奖励以激励其探索未被受害者智能体所遇到过的状态。实验结果表明，CuDA2 框架在不同场景下的对抗性攻击能力相当或优于其他基准方法。

Abstract

cooperative multi-agent reinforcement learning (CMARL) strategies are well known to be vulnerable to adversarial perturbations. Previous works on adversarial attacks have primarily focused on white-box attacks th

cooperative multi-agent reinforcement learning adversarial attacks traitor markov decision process curiosity-driven adversarial attack random network distillation

发现论文，激发创造

合作多智能体强化学习的鲁棒性研究

本文通过针对一名特定智能体的定向攻击，研究了协作多智能体强化学习系统的不稳定性，同时引入了一种新的攻击方式，在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。

Mar, 2020

用多智 - Agent 强化学习从零开始学习网络防御策略

深度学习技术的最新进展为自主网络防御的设计提供了新的可能性，智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径，该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法，表明这两种方法都优于简单的多代理启发式防御者，这项工作展示了合作多代理强化学习在学习有效的网络防御策略对抗不同威胁方面的能力。

Aug, 2023

进化生成辅助对抗攻击者实现鲁棒的多智能体协调

该研究提出了一种名为 ROMANCE 的方法，通过演化生成辅助对抗攻击者，使训练的策略在训练期间遭遇多样性和强大的辅助对抗攻击，从而实现对策略扰动的高鲁棒性。该方法在多种场景中表现出与其他基准方法相当甚至更好的鲁棒性和泛化能力。

May, 2023

合作多智能体强健性评估：基于模型的方法

本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性，我们的方法能够更有效地对付对抗攻击，并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法，可以通过选择受害 - 智能体的策略来增强攻击效果。

Feb, 2022

多智能体强化学习的鲁棒性测试：对关键智能体进行状态扰动

提出了一种新颖的基于 DE 的关键代理的 Robustness Testing 框架，用于生成关键代理的对抗性状态扰动，是第一个具有不同受害者代理的鲁棒性测试框架，表现出对受害者代理数量和破坏合作策略方面的卓越性能。

Jun, 2023

基于扩散的多智能体对抗跟踪

本文介绍了一种名为 CADENCE 的方法，旨在通过利用过去的稀疏状态信息生成对敌人位置的全面预测。我们提出了一种新的基于交叉注意力的扩散模型，利用基于约束的采样生成多模态轨迹假设。我们的单目标模型在所有时间范围内的平均位移误差（ADE）预测中超过了所有基线方法的表现。

Jul, 2023

面临威胁的强化学习

本文介绍了一种面向对抗环境的 Markov 决策过程（TMDPs）框架，提出了 level-k 思考策略，并通过实验验证了在考虑敌手因素的情况下学习模型的好处。

Sep, 2018

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

本文介绍了一种名为 CADP（Centralized Advising and Decentralized Pruning）的框架，解决了现有的 CTDE 框架无法充分利用全局信息的问题，在保证了各个智能体独立策略的同时，通过启用显式的通信渠道，实现了智能体之间的有效信息交流与更加集中的训练，最终在 StarCraft II 和 Google Research Football 等基准测试中取得了优秀的性能表现。

May, 2023

基于可解释的深度强化学习的无人机导航与规划中的鲁棒性对抗攻击检测

采用可解释的深度学习方法为指导和规划的无人机构建了一个仿真环境，其中包括障碍和对抗性攻击，并建立了对此的对抗性攻击检测器

Jun, 2022

可适应辅助多智能体对抗生成的通信抗干扰多智能体学习

本文提出了一种适应性的多智能体辅助对抗生成方法（Multi-Agent Auxiliary Adversaries Generation for robust Communication，MA3C）以提高多智能体强化学习中通信策略的鲁棒性，其中引入了一种新型的信息攻击方法，并采用进化学习的赋权攻击器种群生成策略，同时训练发出消息的系统和攻击器以提高其适应能力。实验证明，该方法提高了多样性和鲁棒性。

May, 2023