马尔科夫决策过程的差分隐私遗憾最小化

Dec, 2021

马尔科夫决策过程的差分隐私遗憾最小化

Differentially Private Regret Minimization in Episodic Markov Decision Processes

Sayak Ray Chowdhury, Xingyu Zhou

TL;DR研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种DP变体的通用框架--集中式DP（JDP）和本地DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中JDP的隐私代价仅为下限加项，而LDP的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Abstract

We study regret minimization in finite horizon tabular markov decision processes (MDPs) under the constraints of differential privacy (DP)

发现论文，激发创造

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强PAC和遗憾边界，且享有JDP保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对JDP强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

有限时间MDPs的全局问题相关后悔下限

针对有限时间表格MDPs的后悔最小化问题，我们推导了一个新颖的渐近问题相关下限。尽管与先前的工作类似（例如针对遍历MDPs的工作），这个下限是一个优化问题的解，但我们的推导表明需要在状态-动作对的访问分布上附加一个额外的约束条件，以明确考虑MDP的动态性。通过一系列示例，我们提供了我们下界的表征，说明不同的MDP可能具有显着不同的复杂性。

Jun, 2021

隐私保护增强学习超越期望

通过将累积前景理论（CPT）与隐私保护的差分隐私相结合，设计了一种算法，使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性，并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。

Mar, 2022

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

强化学习中的新挑战：安全和隐私调查

本文从MDP的角度，综述强化学习存在的安全和隐私问题以及现有的解决方案，进而讨论未来的研究方向。

Dec, 2022

在动态环境下的序列决策中使用本地差分隐私

研究了在序列决策场景中如何在保持隐私的同时提供高效用性的问题。我们提出了一种非平稳随机腐败老虎机并构建了一个叫做SW-KLUCB-CF的算法，并证明了它的效用的上界。我们提供了一种可证明最优的机制，可以在提供高效用性的同时保证期望的本地差分隐私水平。

Jan, 2023

带有重尾奖励的差分隐私情节强化学习

本文研究了固定时限表格式Markov决策过程在差分隐私约束下进行带有重尾奖赏的问题，提出了两种面向重尾MDPs的框架，并探讨了JDP和LDP模型在两个框架下的后悔上限。

Jun, 2023

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和Bernstein型奖励的算法，能满足JDP和LDP的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

隐私保护的人口过程强化学习

我们考虑了强化学习算法中的隐私保护问题，该问题涉及人群过程，这是一个实际但研究很少的设置，例如在大规模个体之间进行流行病控制。我们通过Pufferfish隐私分析澄清了相关数据在人群进程中的差分隐私（DP）的贝叶斯语义，并提供了一种元算法，可以使用任何强化学习算法作为输入，并使其具有差分隐私。我们的主要理论结果表明，在隐私化状态下将标准强化学习算法直接应用于状态时，值函数逼近误差会随着人群规模和隐私预算的增加而迅速缩小，从而强调在人群过程中差分隐私强化学习算法可以实现合理的隐私-效用平衡。我们的理论发现通过在大规模人口上进行的模拟流行病控制问题的实验证实了。

Jun, 2024