具有 PAC 和遗憾保证的私人强化学习

Sep, 2020

具有 PAC 和遗憾保证的私人强化学习

Private Reinforcement Learning with PAC and Regret Guarantees

Giuseppe Vietri, Borja Balle, Akshay Krishnamurthy, Zhiwei Steven Wu

TL;DR在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Abstract

Motivated by high-stakes decision-making domains like personalized medicine where user information is inherently sensitive, we design privacy preserving exploration policies for episodic reinforcement learning (R

privacy preserving reinforcement learning differential privacy optimism-based learning sample complexity

发现论文，激发创造

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种 DP 变体的通用框架 -- 集中式 DP（JDP）和本地 DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中 JDP 的隐私代价仅为下限加项，而 LDP 的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021

带有重尾奖励的差分隐私情节强化学习

本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题，提出了两种面向重尾 MDPs 的框架，并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。

Jun, 2023

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

隐私保护增强学习超越期望

通过将累积前景理论（CPT）与隐私保护的差分隐私相结合，设计了一种算法，使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性，并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。

Mar, 2022

统一 PAC 和遗憾：关于时序强化学习的统一 PAC 界

本篇论文提出了一种新的理论框架 Uniform-PAC，用于测量强化学习算法的性能，可以为高风险应用程序如医疗保健等提供统计性能保障。该框架与传统的 PAC 框架相比，可以提供高概率的后悔保证，因此形成了一座桥梁，填补了文献中缺少的两个设置之间的空白。针对有限状态的情境马尔科夫决策过程，我们演示了新算法的优点，该算法 Uniform-PAC 并同时实现了最优保障和 PAC 保障，除了地平线因素外。

Mar, 2017

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

差分隐私策略评估

本篇论文介绍了用于评估固定策略的差分隐私强化学习算法的两种方法，分析了这两种算法的隐私权和效用，并在简单的实证例子中展示了有希望的结果。

Mar, 2016

超越无悔：实例相关的 PAC 强化学习

研究提出了一种新的针对 PAC 表格强化学习的实例相关样本复杂度的计算方法，并设计了一种能够达到该样本复杂度的规划算法，该算法几乎是极小值最优的，且在多个实例上展现出比最坏情况界限更显著的改进。

Aug, 2021