Jul, 2024

通过欺骗来保护MDP中奖励函数的隐私

TL;DR本论文研究了通过模拟来保护序列决策中偏好的隐私,以及使用逆向强化学习(IRL)学习这些偏好,提出了一种基于欺骗理论的新方法,并通过实验验证了该方法在保护奖励函数隐私方面的优越性。