May, 2021

生成对抗奖励学习用于泛化行为倾向推断

TL;DR提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。