Jun, 2024

隐私保护的人口过程强化学习

TL;DR我们考虑了强化学习算法中的隐私保护问题,该问题涉及人群过程,这是一个实际但研究很少的设置,例如在大规模个体之间进行流行病控制。我们通过 Pufferfish 隐私分析澄清了相关数据在人群进程中的差分隐私(DP)的贝叶斯语义,并提供了一种元算法,可以使用任何强化学习算法作为输入,并使其具有差分隐私。我们的主要理论结果表明,在隐私化状态下将标准强化学习算法直接应用于状态时,值函数逼近误差会随着人群规模和隐私预算的增加而迅速缩小,从而强调在人群过程中差分隐私强化学习算法可以实现合理的隐私 - 效用平衡。我们的理论发现通过在大规模人口上进行的模拟流行病控制问题的实验证实了。