近似最优差分隐私强化学习

Dec, 2022

Near-Optimal Differentially Private Reinforcement Learning

Dan Qiao, Yu-Xiang Wang

TL;DR本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Abstract

Motivated by personalized healthcare and other applications involving sensitive data, we study online exploration in reinforcement learning with differential →

privacy reinforcement learning exploration differential privacy algorithm

发现论文，激发创造

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种 DP 变体的通用框架 -- 集中式 DP（JDP）和本地 DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中 JDP 的隐私代价仅为下限加项，而 LDP 的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021

带有重尾奖励的差分隐私情节强化学习

本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题，提出了两种面向重尾 MDPs 的框架，并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。

Jun, 2023

在线学习的差分隐私代价

本文提出了一种确保差分隐私的在线线性优化算法，其完全信息情况下的后果与 epsilon 无关，但在轮盘线性优化和非随机多臂匪徒的情况下，其遗憾上限是一个 $ ilde {O}$ 函数，同时使时间复杂度在 $\tilde {O}(\frac {1}{\epsilon}\sqrt {T}))$ 内。

Jan, 2017

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

具有偏好反馈的差分隐私奖励估计

本研究探讨了在保护个体标注者隐私的同时，通过偏好反馈来估计奖励模型的问题，使用了基于参数的 Bradley-Terry-Luce (BTL) 模型，提供了关于奖励参数估计误差的上下界，以及在本地模型和中央模型下确保标签 - 隐私所需的额外成本，仿真结果验证了理论结果。

Oct, 2023

DP-Dueling：从偏好反馈学习而不损害用户隐私

在差分隐私的约束下，我们提出了一种首个能够保护用户偏好的活跃学习的差分隐私决策竞争算法，具有接近最优性能的高效计算能力与遗憾边界。

Mar, 2024

具有本地差分隐私的广义线性赌博机

本文介绍了使用本地差分隐私的情境赌博算法，为了在保持用户数据隐私不受侵犯的情况下个性化学习，利用了一种基于随机梯度下降法的估计器和更新机制来确保使用 LDP，并且在广义线性情境中利用了该方法。我们还开发了一个基于最小二乘法的评估器和更新机制，最后通过模拟和实际数据集的实验来证明了算法的性能在强隐私保护的条件下具有相当好的表现。

Jun, 2021

局部差分隐私下伯努利奖励的汤普森抽样

本文研究了带本地差分隐私保证的多臂老虎机问题的遗憾最小化问题。作者提出了三种机制，分别为线性，二次和指数机制，并推导了每种机制下 Thompson Sampling 算法的随机遗憾边界。最后，本文通过模拟证明了不同机制在不同隐私预算下的收敛性。

Jul, 2023