Apr, 2024

具有自我对弈的差分隐私强化学习

TL;DR我们研究了具有差分隐私约束的多智能体强化学习问题,设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法,能满足 JDP 和 LDP 的要求,并提供了关于后悔界的推广结果,是对多智能体强化学习中轨迹隐私保护的首批研究。