Oct, 2023

分布式 TD 学习的原始对偶视角

TL;DR本文研究了分布式时间差异学习在网络化的多智能体马尔可夫决策过程中的应用,提出了基于分布式优化算法的方法,可以解释为在满足零空间约束的原始 - 对偶普通微分方程动力系统上的解,基于该系统在满足零空间约束的指数收敛行为,考察了在不同的分布式 TD 学习场景下,采用恒定和衰减步长,以及独立同分布和马尔可夫观测模型的最终迭代行为。与现有方法不同的是,该算法不需要假设底层通信网络结构为双随机矩阵。