May, 2024

快速二次时间尺度随机梯度法及其在强化学习中的应用

TL;DR提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性,该算法在强化学习中表现出色,超越或与现有的最先进方法相匹配,并通过强化学习中的数值模拟验证了理论结果。