Jun, 2023
具有用户级差分隐私的联邦线性情境赌博机
Federated Linear Contextual Bandits with User-level Differential Privacy
TL;DR本文研究联邦线性情境强化学习在用户级差分隐私下的模型,介绍了用户级中心差分隐私和本地差分隐私,并研究了学习遗憾与相应差分隐私保证之间的基本权衡。对于中心差分隐私,提出了一种联邦算法Robin,并在满足用户级差分隐私的情况下证明了其近乎最优,对于本地差分隐私,获得了一些下界,表明在不同条件下,满足用户级(ε,δ)-LDP的学习必须遭受至少min{1/ε,M}或min{1/根号下ε,根号下M}的遗憾膨胀因子。