May, 2021
生成对抗奖励学习用于泛化行为倾向推断
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference
Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang...
TL;DR提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。