Feb, 2024

具有延迟更新的随机逼近:马尔科夫采样下的有限时间收敛速率

TL;DR基于大规模和多智能体强化学习的应用,我们研究了在马尔可夫采样下具有延迟更新的随机逼近(SA)方案的非渐近性能。我们首先表明,在时间变化的有界延迟下,延迟的 SA 更新规则保证了 “最后迭代” 指数级快速收敛到 SA 操作符固定点周围的球体。与传统的延迟 SA 规则相比,我们的研究减缓了最大延迟对收敛速率的影响,并且不需要关于延迟序列的先验知识来进行步长调整。我们的理论发现揭示了延迟对一类算法的有限时间效果,包括 TD 学习、Q 学习和马尔可夫采样下的随机梯度下降。