Feb, 2024

差分隐私模型导向的离线强化学习

TL;DR我们提出了具有隐私保证的离线增强学习方法,目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标,我们引入了 DP-MORL,一个带有差分隐私保证的 MBRL 算法。首先,使用 DP-FedAvg 从离线数据中学习到环境的私有模型,DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。然后,我们使用基于模型的策略优化从(受惩罚的)私有模型中推导出一个策略,而无需与系统进行进一步交互或访问输入数据。通过实验证明,DP-MORL 使得可以从离线数据中训练私有的增强学习智能体,并进一步给出了在此设置中隐私的代价。