policy optimality | BriefGPT

关键词policy optimality

搜索结果 - 1

贝叶斯多任务逆向强化学习
本文将逆向强化学习问题推广到多个任务，通过引入一定数量的结构化先验，我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习，而且还可以有效地区分每个专家的目标。
PDF13 years ago