Mar, 2024
马尔可夫决策过程验证学习算法
Learning Algorithms for Verification of Markov Decision Processes
Tomáš Brázdil, Krishnendu Chatterjee, Martin Chmelik, Vojtěch Forejt, Jan Křetínský...
TL;DR提出了一个泛用的框架,应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP),主要关注概率可达性问题,包括精确和近似的情况,不受时间限制或折扣因子等条件的限制。