Apr, 2011

偏好引导和逆强化学习

TL;DR通过偏好评估,我们提出了 Bayesian 逆强化学习的一个方法,可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布,并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明,即使观察到的代理策略不是最优的,我们也能够准确确定其偏好,并得出更好的策略。