Jun, 2024

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

TL;DR在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。