Mar, 2024

分布式 TD ($λ$) 的单次平均化方法在马尔可夫采样下应用

TL;DR我们考虑一种分布式设置的强化学习,其中每个智能体都有相同的马尔可夫决策过程的副本,但是转移矩阵由每个智能体独立进行采样。我们表明在这个设置中,我们可以通过 ' 一次性平均 ' 的过程,使得 N 个智能体对策略进行 N 倍的速度加速,前提是目标准确性足够小。这种加速是相对于先前的工作来说通信所需量大大减少的线性加速方法。