带有差分隐私的离线强化学习

Jun, 2022

Offline Reinforcement Learning with Differential Privacy

Dan Qiao, Yu-Xiang Wang

TL;DR我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Abstract

The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sens

offline reinforcement learning differential privacy decision policies markov decision process privacy risks

发现论文，激发创造

差分隐私模型导向的离线强化学习

我们提出了具有隐私保证的离线增强学习方法，目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标，我们引入了 DP-MORL，一个带有差分隐私保证的 MBRL 算法。首先，使用 DP-FedAvg 从离线数据中学习到环境的私有模型，DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。然后，我们使用基于模型的策略优化从（受惩罚的）私有模型中推导出一个策略，而无需与系统进行进一步交互或访问输入数据。通过实验证明，DP-MORL 使得可以从离线数据中训练私有的增强学习智能体，并进一步给出了在此设置中隐私的代价。

Feb, 2024

具有自我对弈的差分隐私强化学习

我们研究了具有差分隐私约束的多智能体强化学习问题，设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法，能满足 JDP 和 LDP 的要求，并提供了关于后悔界的推广结果，是对多智能体强化学习中轨迹隐私保护的首批研究。

Apr, 2024

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

差分隐私分布式在线学习

本文提出了一种新型的分布式在线学习算法，并采用差分隐私来保护学习者的隐私。通过使用在线学习的遗憾界，实现离线学习算法的快速收敛。在模拟中，证明了我们所提出的定理的正确性和算法的普适性。

May, 2015

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

差分隐私策略评估

本篇论文介绍了用于评估固定策略的差分隐私强化学习算法的两种方法，分析了这两种算法的隐私权和效用，并在简单的实证例子中展示了有希望的结果。

Mar, 2016

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

强化学习中的新挑战：安全和隐私调查

本文从 MDP 的角度，综述强化学习存在的安全和隐私问题以及现有的解决方案，进而讨论未来的研究方向。

Dec, 2022

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023