Dec, 2021

马尔科夫决策过程的差分隐私遗憾最小化

TL;DR研究有限时段表格马尔可夫决策过程(MDPs)中的遗憾最小化问题,在差分隐私(DP)约束条件下,提出两种DP变体的通用框架--集中式DP(JDP)和本地DP(LDP)-- 以设计带有隐私机制的强化学习算法,其中JDP的隐私代价仅为下限加项,而LDP的代价则是乘法项。同时获得次线性的遗憾保证,并提出了该分析的统一方法。