一种收敛的离策略时序差分算法
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
研究在线预测学习的问题,讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能,提供了两个具有挑战性的微观世界中的实证研究结果,总结了脱机学习的相关方法,提供了新的见解,使从业者能够成功应用于大规模应用。
Nov, 2018
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应用的理论解释。
Jun, 2023
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018
本文提出了一种新的 $l_1$ 正则化的离策略收敛 TD 学习方法(称为 RO-TD),能够以较低的计算复杂度学习值函数的稀疏表示,并且具有在线凸正则化的特征选择能力。详细的理论和实验分析表明该算法具有离策略收敛、稀疏特征选择能力和低计算成本。
Jun, 2020
本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD(λ)和 ETD(λ)的首个收敛性证明,并针对一般的离线策略研究了 ELSTD(λ)迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。
Jun, 2015