Nov, 2021

关于马尔可夫奖励的表现力

TL;DR本论文研究奖励作为捕捉代理应执行任务的方式的表达能力,并针对可期望的三种新的任务抽象概念(接受的行为集、行为的偏序关系或轨迹的偏序关系),提供了一组构造马尔可夫奖励函数的多项式时间算法,使代理能够优化每种类型的任务,并正确判断不存在这种奖励函数的情况。最后通过实证研究证实了理论发现。