Mar, 2023

连续时间 MDP 的 Omega 正则规范的强化学习

TL;DR探究离散时间 Markov 决策过程的自动翻译问题,提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况,并使用了最新的基于转义的自动翻译技术。