Dec, 2019

具有共同噪声和开环控制的均场马尔可夫决策过程

TL;DR在条件 McKean-Vlasov MDP 模型中,对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应,并且通过构建值函数所满足的动态规划 Bellman 定点方程,证明了存在最优的随机反馈控制。