直接梯度时差学习
本文介绍了近端梯度时序差分学习,通过引入原始 - 对偶鞍点目标函数,提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法,并提出了一种名为 GTD2-MP 的加速算法,使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。
Jun, 2020
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
研究分布式版本的梯度时差分 (GTD) 学习算法,应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题,并提出原始 - 对偶分布式 GTD 算法,以证明其几乎必定收敛于优化问题的一组静止点。
Mar, 2018
本文旨在分析梯度时序差分学习(GTD)算法族的收敛速率,将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法,并进行鞍点误差分析以获得其性能的有限样本界限,提出了两种改进的算法,即投影 GTD2 和 GTD2-MP,理论分析结果表明,GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。
Jun, 2020
提出了分布式渐进时间差分(TD)学习的变体,并设计了新的分布式 GTD2 和分布式 TDC 算法,以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。
May, 2018
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析,并在此基础上提出了具有分块减小的步长的 TDC 算法,实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度,并在减小步长的情况下仍保持与 TDC 相当的精度。
Sep, 2019
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019