Mar, 2024

在范数空间中的随机 Halpern 迭代及其在强化学习中的应用

TL;DR我们分析了具有方差减小的随机 Halpern 迭代的 Oracle 复杂度,目标是在规范有限维度空间中逼近非扩张和收缩算子的不动点。我们证明,如果底层随机 Oracle 的方差有一致上界,我们的方法展现出 O (ε^{-5}) 的总 Oracle 复杂度,改进了针对随机 Krasnoselskii-Mann 迭代的最新速率。同样,我们建立了一个 Ω(ε^{-3}) 的下界,适用于广泛范围的算法,包括所有的平均迭代,甚至采用小批量训练。利用我们方法的适当修改,我们推导出在算子为 γ 收缩的情况下的 O (ε^{-2}(1-γ)^{-3}) 复杂度上界。作为应用,我们提出了用于平均奖励和折扣奖励马尔可夫决策过程的新的同步算法。特别地,对于平均奖励问题,我们的方法改进了已知的最佳样本复杂度。