BriefGPT.xyz
Ask
alpha
关键词
policy optimality
搜索结果 - 1
贝叶斯多任务逆向强化学习
本文将逆向强化学习问题推广到多个任务,通过引入一定数量的结构化先验,我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习,而且还可以有效地区分每个专家的目标。
PDF
13 years ago
Prev
Next