通过欺骗来保护MDP中奖励函数的隐私

Jul, 2024

通过欺骗来保护MDP中奖励函数的隐私

Preserving the Privacy of Reward Functions in MDPs through Deception

Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri

TL;DR本论文研究了通过模拟来保护序列决策中偏好的隐私，以及使用逆向强化学习（IRL）学习这些偏好，提出了一种基于欺骗理论的新方法，并通过实验验证了该方法在保护奖励函数隐私方面的优越性。

Abstract

Preserving the privacy of preferences (or rewards) of a sequential decision-making agent when decisions are observable is crucial in many physical and cybersecurity domains. For instance, in wildlife monitoring, agents must allocate patrolling resources without revealing animal locatio

发现论文，激发创造

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强PAC和遗憾边界，且享有JDP保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对JDP强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

你的强化学习策略有多隐私？一个基于逆强化学习的分析框架

提出了一个名为Privacy-Aware Inverse RL的分析框架, 通过反向强化学习算法来进行隐私保护的评估, 并实验评估针对不同复杂度情况下的FrozenLake域的多个实例的隐私算法的有效性和保障水平, 并量化地证明了需要更高的隐私标准来保护强化学习中的奖励函数.

Dec, 2021

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种DP变体的通用框架--集中式DP（JDP）和本地DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中JDP的隐私代价仅为下限加项，而LDP的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021

隐私保护增强学习超越期望

通过将累积前景理论（CPT）与隐私保护的差分隐私相结合，设计了一种算法，使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性，并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。

Mar, 2022

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

强化学习中的新挑战：安全和隐私调查

本文从MDP的角度，综述强化学习存在的安全和隐私问题以及现有的解决方案，进而讨论未来的研究方向。

Dec, 2022

在动态环境下的序列决策中使用本地差分隐私

研究了在序列决策场景中如何在保持隐私的同时提供高效用性的问题。我们提出了一种非平稳随机腐败老虎机并构建了一个叫做SW-KLUCB-CF的算法，并证明了它的效用的上界。我们提供了一种可证明最优的机制，可以在提供高效用性的同时保证期望的本地差分隐私水平。

Jan, 2023

合作多智能体规划中的差分隐私

提出一个保护多智能体系统的隐私的框架，通过应用差分隐私机制来保障多智能体间的通信，并分析隐私强度和团队表现之间的权衡，进而综合出了一种鲁棒性好的策略，该策略将总相关度的价值减少，使得在私有和非私有通信实现下团队表现的差别仅为3％。

Jan, 2023

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和Bernstein型奖励的算法，能满足JDP和LDP的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

隐私保护的人口过程强化学习

我们考虑了强化学习算法中的隐私保护问题，该问题涉及人群过程，这是一个实际但研究很少的设置，例如在大规模个体之间进行流行病控制。我们通过Pufferfish隐私分析澄清了相关数据在人群进程中的差分隐私（DP）的贝叶斯语义，并提供了一种元算法，可以使用任何强化学习算法作为输入，并使其具有差分隐私。我们的主要理论结果表明，在隐私化状态下将标准强化学习算法直接应用于状态时，值函数逼近误差会随着人群规模和隐私预算的增加而迅速缩小，从而强调在人群过程中差分隐私强化学习算法可以实现合理的隐私-效用平衡。我们的理论发现通过在大规模人口上进行的模拟流行病控制问题的实验证实了。

Jun, 2024