Jan, 2019

具函数噪声的连续状态空间中保护隐私的Q学习

TL;DR通过在训练中迭代地向价值函数添加函数噪声,本文在连续空间中考虑了保护差分隐私强化学习算法的价值函数逼近器,并证明了其隐私保证和近似最优性。