多视角信息认证实现的强韧性多智能体通信
多智能体系统中,代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法,其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明,与最先进的多智能体强化学习方法相比,基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。
Nov, 2023
本文提出了一种适应性的多智能体辅助对抗生成方法(Multi-Agent Auxiliary Adversaries Generation for robust Communication,MA3C)以提高多智能体强化学习中通信策略的鲁棒性,其中引入了一种新型的信息攻击方法,并采用进化学习的赋权攻击器种群生成策略,同时训练发出消息的系统和攻击器以提高其适应能力。实验证明,该方法提高了多样性和鲁棒性。
May, 2023
本文提出了一个最大互信息(MMI)框架,用于多智能体强化学习,通过在行动之间的互信息上采取正则化累积回报,使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息,并应用变分界,我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界,我们提出了一个名为变分最大互信息多智能体演员 - 评论家(VM3-AC)的实用算法,它遵循中央化学习与分散执行(CTDE)的方法。我们在几个需要协调的游戏中评估了 VM3-AC,并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。
Jun, 2020
通过提出目标和可信任的多智能体通信 (T2MAC) 方法,我们能够使智能体学习选择性参与和基于证据的信息整合,从而提高通信效率。通过评估我们的方法在多样的多智能体协作任务上的表现,我们发现该模型不仅在合作性能和通信效率方面超越了现有方法,而且展现出令人印象深刻的泛化能力。
Jan, 2024
本文提出了一种新的用于多智能体强化学习的互信息框架,以实现多个智能体协调行为,并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量,应用变分下界,得到了一个可处理的目标函数下界,该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合,通过将此下界最大化,提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC),其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估,数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。
Mar, 2023
本文提出了一种针对多智能体强化学习的有针对性通信架构,智能体在部分可见环境中执行协作任务时学习如何发送信息和将其发送给谁。该方法在没有通信监督的情况下,仅通过下游任务特定的奖励来学习定向行为。此外,我们通过多轮通信方法增强智能体之间的协调,以更好地适应不断变化的环境。我们在各种环境和任务中的测试结果证明了有针对性和多轮通信的优势,并且所学的定向通信策略可解释性和直观性。最后,我们表明我们的架构可以轻松扩展到混合和竞争环境中,从而提高性能和样本复杂性。
Oct, 2018
提出了一种差分隐私的多智能体通信 (DPMAC) 算法用于多智能体强化学习中,该算法通过为每个智能体配备具有严格 (ε, δ)- 差分隐私保证的本地消息发送器来保护个体智能体的敏感信息,并在合作性多智能体强化学习中证明了纳什均衡 (Nash equilibrium) 的存在,从而表明该问题是可以在博弈理论层面上学习的。通过大量实验证明了 DPMAC 在隐私保护场景中相对于基准方法的明显优势。
Aug, 2023
多智能体强化学习中的通信经实验证明能有效促进代理之间的合作,然而,由于现实场景中通信容易受到干扰和攻击,因此开发鲁棒通信技术至关重要。本文提出了一种主动防御策略,使代理能够自动减少潜在有害信息对最终决策的影响。我们设计了一个主动防御多智能体通信框架(ADMAC),通过一个可分解的决策结构估计接收到的信息的可靠性,并相应地调整其对最终决策的影响。通过在四种攻击类型下进行三个通信关键任务的实验验证了 ADMAC 相对于现有方法的优越性。
Dec, 2023
本文介绍了一种基于证明高鲁棒性的策略优化框架,称为 CAROL,在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习,并直接导致在收敛时返回的高鲁棒性证书。 在四个 MuJoCo 环境中的实验评估显示,CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。
Jan, 2023