本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在StartCraft II多智能体基准测试上将团队胜率从98.9%降至0%。
Mar, 2020
通过种群训练对抗性方案以增加对手的多样性,从而提高自我对抗强化学习的鲁棒性。
Aug, 2022
本文介绍了一个基于虚拟多智能体平台的扩展,称为TripleSumo,用于研究连续动作空间中多智能体的合作行为,在对抗性环境中进行物理接触。我们对两个代理Bug和Ant与Spider进行合作的情景进行了研究,并首次提出加入Bug的强化学习算法DDPG,通过混合奖励结构定量评估了合作行为。
Feb, 2023
本论文研究了多智能体系统的行为异质性问题,提出了一种名为System Neural Diversity(SND)的度量方法,通过对多智能体系统的模拟实验,证明了SND在评估系统韧性和稳健性方面的重要性。
May, 2023
该研究提出了一种名为ROMANCE的方法,通过演化生成辅助对抗攻击者,使训练的策略在训练期间遭遇多样性和强大的辅助对抗攻击,从而实现对策略扰动的高鲁棒性。该方法在多种场景中表现出与其他基准方法相当甚至更好的鲁棒性和泛化能力。
本文研究在强化学习的多智能体环境中,攻击者通过对受害者智能体进行对抗性的过程来实施攻击,并提出了一种更一般化的攻击模型,通过攻击预算来实现对智能体的控制,可产生能够利用受害者智能体的隐蔽性对抗策略,同时提供了首个提供收敛证明的保护方案,以对抗最强的对抗性训练。
第二届Neural MMO挑战赛的结果表明,在多智能体系统中的鲁棒性和泛化性能上取得了令人满意的成果,参与者通过使用标准强化学习方法结合领域特定的工程技术,训练出能够在与训练过程中未见过的对手下完成多任务目标的智能体团队。该挑战赛的设计和结果总结表明,作为学术界的一种强有力的方法,竞赛可以解决难题并为算法建立可靠的基准。我们将开源我们的基准测试,包括环境封装器、基准模型、可视化工具和选定的策略,以供进一步研究。
Aug, 2023
通过控制一个策略的利普希茨常数,我们展示了在固定条件下的利普希茨和接近最优策略的存在,并基于此提出了新的强健 MARL 框架 ERNIE,通过对状态观测和动作进行对抗性正则化来提高其的利普希茨连续性,并展示了在交通灯控制和粒子环境中的广泛实验。另外,我们扩展了ERNIE到基于分布鲁棒优化的mean-field MARL,该方法在性能上超越了非强健对照组,并具有独立因素。
Oct, 2023
多智能体强化学习中的安全威胁及对策的研究,包括针对对手生成敌对策略时的部分可观测性限制的黑盒攻击方法以及针对这些策略的潜在防御方式的评估和建议。
Feb, 2024