Oct, 2023

在 MDPs 中用于 LTL 和 ω-regular 目标的 PAC 学习算法

TL;DR引入了一个基于模型的近似正确(PAC)学习算法,用于解决马尔可夫决策过程中的 omega 正则目标。不同于之前的方法,该算法从系统的采样轨迹中学习,不需要对系统拓扑的先验知识。