Jul, 2024

通过协调提升和动态规划解决多模型马尔可夫决策过程

TL;DR该研究主要关注多模型马尔可夫决策过程(MMDP)和CADP策略梯度的推导与分析,提供了一种采用坐标上升方法和动态规划算法相结合的CADP解决MMDP的创新方法,并通过实验结果表明CADP在解决若干基准问题时明显优于现有方法。