BriefGPT.xyz
Apr, 2011
偏好引导和逆强化学习
Preference elicitation and inverse reinforcement learning
HTML
PDF
Constantin Rothkopf, Christos Dimitrakakis
TL;DR
通过偏好评估,我们提出了Bayesian逆强化学习的一个方法,可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布,并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明,即使观察到的代理策略不是最优的,我们也能够准确确定其偏好,并得出更好的策略。
Abstract
We state the problem of
inverse reinforcement learning
in terms of
preference elicitation
, resulting in a principled (
bayesian
)
→