Sep, 2020

具有 PAC 和遗憾保证的私人强化学习

TL;DR在高风险决策领域,如个性化医疗,用户信息天然敏感,因此设计了保护隐私的强化学习策略。采用联合差分隐私(JDP)提供有意义的隐私表述,并开发一种基于乐观主义的隐私保护学习算法,同时实现强 PAC 和遗憾边界,且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后,我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。