May, 2022
交替式好状态马尔可夫决策自动机
Alternating Good-for-MDP Automata
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi...
TL;DR本研究发现,当使用好的 MDP Buchi 自动机来代替确定性 Rabin 自动机时,可以更好地将 omega-regular 目标使用于模型无关的强化学习中,并且使用 Streett 自动机所得到的交替好的 MDP 自动机,可以比最小的非确定性 Buchi 自动机更加简洁。