Mar, 2024

马尔可夫决策过程验证学习算法

TL;DR提出了一个泛用的框架,应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP),主要关注概率可达性问题,包括精确和近似的情况,不受时间限制或折扣因子等条件的限制。