BriefGPT.xyz
Nov, 2021
关于马尔可夫奖励的表现力
On the Expressivity of Markov Reward
HTML
PDF
David Abel, Will Dabney, Anna Harutyunyan, Mark K. Ho, Michael L. Littman...
TL;DR
本论文研究奖励作为捕捉代理应执行任务的方式的表达能力,并针对可期望的三种新的任务抽象概念(接受的行为集、行为的偏序关系或轨迹的偏序关系),提供了一组构造马尔可夫奖励函数的多项式时间算法,使代理能够优化每种类型的任务,并正确判断不存在这种奖励函数的情况。最后通过实证研究证实了理论发现。
Abstract
Reward is the driving force for
reinforcement-learning
agents. This paper is dedicated to understanding the
expressivity
of reward as a way to capture
→