May, 2012

基于遗憾的马尔可夫决策过程奖励引导方法

TL;DR本论文将奖励函数规范的问题视为偏好引出问题,并旨在在仍允许产生最优或接近最优策略的情况下,最小化必须规定奖励函数的精度。通过使用极小极大后悔准则来计算只有部分奖励信息的MDP的健壮策略,然后演示如何使用边界查询高效引出奖励信息,以减少后悔,使用后悔减少作为选择适当查询的手段。实证结果表明,基于悔恨的奖励引出为生产接近最优策略提供了一种有效的方式,而不需要精确定义整个奖励函数。