BriefGPT.xyz
Ask
alpha
关键词
generative inverse reinforcement learning
搜索结果 - 1
生成对抗奖励学习用于泛化行为倾向推断
提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场
→
PDF
3 years ago
Prev
Next