偏好引导和逆强化学习

Apr, 2011

Preference elicitation and inverse reinforcement learning

Constantin Rothkopf, Christos Dimitrakakis

TL;DR通过偏好评估，我们提出了Bayesian逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Abstract

We state the problem of inverse reinforcement learning in terms of preference elicitation, resulting in a principled (bayesian)