IJCAIJun, 2021

调和奖励与预测状态表示

TL;DR描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的不匹配,最后验证了 R-PSR 作为可信赖且准确模拟观察和奖励的方法。