Jan, 2024

应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中

TL;DR扩展 Borkar-Meyn 定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法,分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。