Mar, 2022

隐私保护增强学习超越期望

TL;DR通过将累积前景理论(CPT)与隐私保护的差分隐私相结合,设计了一种算法,使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性,并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。