DPMAC：针对合作多智能体强化学习的差分隐私通信

IJCAIAug, 2023

DPMAC：针对合作多智能体强化学习的差分隐私通信

DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning

Canzhe Zhao, Yanjie Ze, Jing Dong, Baoxiang Wang, Shuai Li

TL;DR提出了一种差分隐私的多智能体通信 (DPMAC) 算法用于多智能体强化学习中，该算法通过为每个智能体配备具有严格 (ε, δ)- 差分隐私保证的本地消息发送器来保护个体智能体的敏感信息，并在合作性多智能体强化学习中证明了纳什均衡 (Nash equilibrium) 的存在，从而表明该问题是可以在博弈理论层面上学习的。通过大量实验证明了 DPMAC 在隐私保护场景中相对于基准方法的明显优势。

Abstract

communication lays the foundation for cooperation in human society and in multi-agent reinforcement learning (MARL). Humans also desire to maintain their privacy when communicating with others, yet such privacy c

multi-agent reinforcement learning differential privacy communication privacy-preserving game-theoretically learnable

发现论文，激发创造

合作多智能体规划中的差分隐私

提出一个保护多智能体系统的隐私的框架，通过应用差分隐私机制来保障多智能体间的通信，并分析隐私强度和团队表现之间的权衡，进而综合出了一种鲁棒性好的策略，该策略将总相关度的价值减少，使得在私有和非私有通信实现下团队表现的差别仅为 3％。

Jan, 2023

PP-MARL: 高效隐私保护多智能体协作通信智能化

本论文提出了一种 PP-MARL 隐私保护学习方案，基于多智能体强化学习，应用于通信网络中的移动管理和边缘智能网络控制领域，以实现更有效、可靠的协作和更好的隐私保护。在模拟实验中，该方案达到了比现有方法更好的隐私保护和更低的开销。

Apr, 2022

强化学习与主动防御的鲁棒通信多智能体系统

多智能体强化学习中的通信经实验证明能有效促进代理之间的合作，然而，由于现实场景中通信容易受到干扰和攻击，因此开发鲁棒通信技术至关重要。本文提出了一种主动防御策略，使代理能够自动减少潜在有害信息对最终决策的影响。我们设计了一个主动防御多智能体通信框架（ADMAC），通过一个可分解的决策结构估计接收到的信息的可靠性，并相应地调整其对最终决策的影响。通过在四种攻击类型下进行三个通信关键任务的实验验证了 ADMAC 相对于现有方法的优越性。

Dec, 2023

隐私保护的供应链多智能体强化学习

本文针对供应链中的多智能体强化学习（MARL）涉及的隐私问题进行了研究，在供应链组织建模为各个智能体的情况下，提出了一个安全的多方计算（MPC）框架的隐私保护机制来解决隐私保护的问题。通过在 MADDPG 算法上使用 SecFloat 实现了一个安全的 MPC 框架，并且进行了实验证明其在供应链领域能够显著降低浪费并提高平均收入。

Dec, 2023

隐秘行动：利用差分隐私噪音来抵御局部篡改攻击

该研究提出了基于不同隐私的多智能体强化学习中的本地化污染攻击（PeLPA），针对其存在的毒化威胁，采用隐私利用技术和逃避鲁棒性技术，利用 DP 差分隐私的噪音规避异常检测系统，阻碍模型的最优收敛。实验结果表明，在 20% 和 40% 的攻击比率下，PeLPA 攻击会使平均步数增加 50.69％和 64.41％，同时会导致最优奖励获得时间的 1.4 倍和 1.6 倍的计算时间增加，以及 20% 和 40％攻击比率下收敛速度分别变慢 1.18 倍和 1.38 倍。

Jul, 2023

隐私意识智能体中的群体决策

如何在个人的隐私需求和安全顾虑中实现个体之间的信息交流以彼此学习？通过采用严格的统计担保，基于差分隐私（DP）控制信息泄露，我们使得保护个人隐私和实现高效社会学习成为可能。我们的研究结果揭示了在质量、学习准确性、通信成本和个体隐私保护水平之间在有限和无限信号环境下的权衡性质。

Feb, 2024

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

隐私工程化价值分解网络用于合作多智体强化学习

在合作多智能体强化学习（Co-MARL）中，我们提出了一种隐私工程化的价值分解网络（PE-VDN）算法来建模多智能体间的协作且可确保各智能体的环境交互数据的机密性，通过整合分布式计算方案、隐私保护的多方计算协议和差分隐私技术，PE-VDN 在保证有效的隐私保护水平的同时实现了高达 Vanilla VDN 80% 的胜率。

Sep, 2023

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

多智能体强化学习的上下文感知通信

开发名为 CACOM 的上下文感知通信协议，通过多个阶段的粗略表示交换和注意机制，为多智能体强化学习提供了个性化的通信方案，采用学习的步长量化技术以减少通信开销，并在合作基准任务上实验结果证明 CACOM 在通信受限场景下提供了明显的性能提升。

Dec, 2023