隐私保护的人口过程强化学习

Jun, 2024

Privacy Preserving Reinforcement Learning for Population Processes

Samuel Yang-Zhao, Kee Siong Ng

TL;DR我们考虑了强化学习算法中的隐私保护问题，该问题涉及人群过程，这是一个实际但研究很少的设置，例如在大规模个体之间进行流行病控制。我们通过 Pufferfish 隐私分析澄清了相关数据在人群进程中的差分隐私（DP）的贝叶斯语义，并提供了一种元算法，可以使用任何强化学习算法作为输入，并使其具有差分隐私。我们的主要理论结果表明，在隐私化状态下将标准强化学习算法直接应用于状态时，值函数逼近误差会随着人群规模和隐私预算的增加而迅速缩小，从而强调在人群过程中差分隐私强化学习算法可以实现合理的隐私 - 效用平衡。我们的理论发现通过在大规模人口上进行的模拟流行病控制问题的实验证实了。

Abstract

We consider the problem of privacy protection in reinforcement learning (RL) algorithms that operate over population processes, a practica

privacy protection reinforcement learning population processes differential privacy rl algorithms

发现论文，激发创造

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

隐私意识智能体中的群体决策

如何在个人的隐私需求和安全顾虑中实现个体之间的信息交流以彼此学习？通过采用严格的统计担保，基于差分隐私（DP）控制信息泄露，我们使得保护个人隐私和实现高效社会学习成为可能。我们的研究结果揭示了在质量、学习准确性、通信成本和个体隐私保护水平之间在有限和无限信号环境下的权衡性质。

Feb, 2024

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

隐私保护增强学习超越期望

通过将累积前景理论（CPT）与隐私保护的差分隐私相结合，设计了一种算法，使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性，并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。

Mar, 2022

合作多智能体规划中的差分隐私

提出一个保护多智能体系统的隐私的框架，通过应用差分隐私机制来保障多智能体间的通信，并分析隐私强度和团队表现之间的权衡，进而综合出了一种鲁棒性好的策略，该策略将总相关度的价值减少，使得在私有和非私有通信实现下团队表现的差别仅为 3％。

Jan, 2023

差分隐私策略评估

本篇论文介绍了用于评估固定策略的差分隐私强化学习算法的两种方法，分析了这两种算法的隐私权和效用，并在简单的实证例子中展示了有希望的结果。

Mar, 2016

差分隐私模型导向的离线强化学习

我们提出了具有隐私保证的离线增强学习方法，目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标，我们引入了 DP-MORL，一个带有差分隐私保证的 MBRL 算法。首先，使用 DP-FedAvg 从离线数据中学习到环境的私有模型，DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。然后，我们使用基于模型的策略优化从（受惩罚的）私有模型中推导出一个策略，而无需与系统进行进一步交互或访问输入数据。通过实验证明，DP-MORL 使得可以从离线数据中训练私有的增强学习智能体，并进一步给出了在此设置中隐私的代价。

Feb, 2024

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

强化学习中的新挑战：安全和隐私调查

本文从 MDP 的角度，综述强化学习存在的安全和隐私问题以及现有的解决方案，进而讨论未来的研究方向。

Dec, 2022