Jul, 2023

网络化多智能体马尔可夫决策过程的分布式动态规划

TL;DR该论文旨在研究分布式动态规划来解决网络化多智能体马尔可夫决策问题,通过控制理论视角提出了在连续时间领域的分布式动态规划,并证明了其收敛性,该分析可被视为分布式时态差异学习算法的初步常微分方程分析,其收敛性可通过 Borkar-Meyn 定理和单时间尺度方法证明。