May, 2022

交替式好状态马尔可夫决策自动机

TL;DR本研究发现,当使用好的 MDP Buchi 自动机来代替确定性 Rabin 自动机时,可以更好地将 omega-regular 目标使用于模型无关的强化学习中,并且使用 Streett 自动机所得到的交替好的 MDP 自动机,可以比最小的非确定性 Buchi 自动机更加简洁。