具有正则化修正的梯度时序差分学习
本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能,并且提出了一种新的增强TD(λ)算法,相较于之前的方法,它更简单易用,只有一个学习参数向量和一个步长参数,含有状态相关折扣函数和自举函数,并且能够根据需要确定不同状态的精确定价程度。
Mar, 2015
本文提出了一种新的TD方法家族ATD方法,用于在保证数据效率、减少参数灵敏度和渐进无偏的情况下,大幅减少计算和存储的量,其收敛性得到了期望的证明,并在多个基准域和大型工业能源分配域上进行了实验。
Nov, 2016
该论文探讨了在强化学习中,通过使用Dirichlet范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保TD算法的收敛性并解决梯度消失问题。
May, 2018
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的TD学习不同,维护两个独立的学习参数-目标变量和在线变量,以加速Deep Q学习中目标网络的收敛。
Apr, 2019
本文提出了一种自适应投影变体的临时差异(TD)学习算法AdaTD(0),它具有线性函数逼近和可证明稳定性,其实验结果表明其对于标准强化学习任务具有有效性。
Feb, 2020
我们在深度Q学习中比较了Residual Gradient (RG)和Temporal Difference (TD),结果表明TD更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的Bellman残差误差可能对应一个不好的策略。我们进一步证明了TD中的缺失项是RG表现不佳的重要原因。我们的研究表明,深度Q学习的性能与训练动态密切相关,如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。
May, 2022
本研究研究了结合尾平均的时序差分(TD)学习算法的有限时间行为。研究发现,尾平均的TD在不需要信息的情况下,可以在期望和高概率下以最优的$O(1/t)$速率收敛,我们提出和分析了一个增加了正则化的TD变量,结论表明正则化的TD对于具有病态特征的问题是有用的。
Oct, 2022
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性TD设置中的二次损失,以证明TD的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了TD在强化学习中成功应用的理论解释。
Jun, 2023
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点θ₀周围半径为ω的球B(θ₀, ω)的神经时间差异学习的收敛性分析,展示了一个近似界限为O(ε)+~O(1/√m),其中ε是B(θ₀, ω)中最佳神经网络的逼近质量,而m是网络中所有隐藏层的宽度。
Dec, 2023