具有自我对弈的差分隐私强化学习

Apr, 2024

具有自我对弈的差分隐私强化学习

Differentially Private Reinforcement Learning with Self-Play

Dan Qiao, Yu-Xiang Wang

TL;DR我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Abstract

We study the problem of multi-agent reinforcement learning (multi-agent RL) with differential privacy (DP) constraints. This is well-motivated by various real-world applications involving sensitive data, where it

multi-agent reinforcement learning differential privacy joint dp local dp regret bound

发现论文，激发创造

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种 DP 变体的通用框架 -- 集中式 DP（JDP）和本地 DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中 JDP 的隐私代价仅为下限加项，而 LDP 的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

带有重尾奖励的差分隐私情节强化学习

本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题，提出了两种面向重尾 MDPs 的框架，并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。

Jun, 2023

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

差分隐私模型导向的离线强化学习

我们提出了具有隐私保证的离线增强学习方法，目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标，我们引入了 DP-MORL，一个带有差分隐私保证的 MBRL 算法。首先，使用 DP-FedAvg 从离线数据中学习到环境的私有模型，DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。然后，我们使用基于模型的策略优化从（受惩罚的）私有模型中推导出一个策略，而无需与系统进行进一步交互或访问输入数据。通过实验证明，DP-MORL 使得可以从离线数据中训练私有的增强学习智能体，并进一步给出了在此设置中隐私的代价。

Feb, 2024

合作多智能体规划中的差分隐私

提出一个保护多智能体系统的隐私的框架，通过应用差分隐私机制来保障多智能体间的通信，并分析隐私强度和团队表现之间的权衡，进而综合出了一种鲁棒性好的策略，该策略将总相关度的价值减少，使得在私有和非私有通信实现下团队表现的差别仅为 3％。

Jan, 2023

差分隐私策略评估

本篇论文介绍了用于评估固定策略的差分隐私强化学习算法的两种方法，分析了这两种算法的隐私权和效用，并在简单的实证例子中展示了有希望的结果。

Mar, 2016

隐私保护的人口过程强化学习

我们考虑了强化学习算法中的隐私保护问题，该问题涉及人群过程，这是一个实际但研究很少的设置，例如在大规模个体之间进行流行病控制。我们通过 Pufferfish 隐私分析澄清了相关数据在人群进程中的差分隐私（DP）的贝叶斯语义，并提供了一种元算法，可以使用任何强化学习算法作为输入，并使其具有差分隐私。我们的主要理论结果表明，在隐私化状态下将标准强化学习算法直接应用于状态时，值函数逼近误差会随着人群规模和隐私预算的增加而迅速缩小，从而强调在人群过程中差分隐私强化学习算法可以实现合理的隐私 - 效用平衡。我们的理论发现通过在大规模人口上进行的模拟流行病控制问题的实验证实了。

Jun, 2024

隐私意识智能体中的群体决策

如何在个人的隐私需求和安全顾虑中实现个体之间的信息交流以彼此学习？通过采用严格的统计担保，基于差分隐私（DP）控制信息泄露，我们使得保护个人隐私和实现高效社会学习成为可能。我们的研究结果揭示了在质量、学习准确性、通信成本和个体隐私保护水平之间在有限和无限信号环境下的权衡性质。

Feb, 2024