Jun, 2011

贝叶斯多任务逆向强化学习

TL;DR本文将逆向强化学习问题推广到多个任务,通过引入一定数量的结构化先验,我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习,而且还可以有效地区分每个专家的目标。