线性时间差学习中带任意特征的几乎确定收敛性
本文提出了针对使用线性函数逼近器的时间差分学习算法TD(0)的非渐近界限。同时,也指出了除非我们对政策的马尔科夫链的稳态分布(部分)具有知识,否则步长反比于迭代次数不能保证最优收敛率。此外,我们为迭代平均的TD(0)变体提供了界限,同时消除了步长的依赖性,并表现出最优的收敛速度。此外,我们还提出了一种包含置中序列的TD(0)线性逼近器变型,并证明它在期望下表现出指数级的收敛速度。最后,我们在两个人工实验中展示了这些界限的有用性。
Nov, 2014
本文是首篇对TD(0)算法在线性情况下基于函数逼近进行有限采样分析的研究,并且通过利用TD(0)的强大属性,提供了期望和高概率的收敛速率,并使用最近开发的随机逼近技术采用了不同的方法来获得这两种收敛速率。
Apr, 2017
该论文探讨了在强化学习中,通过使用Dirichlet范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保TD算法的收敛性并解决梯度消失问题。
May, 2018
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于TD(λ)学习和应用于高维度最佳停止问题的Q-learning。
Jun, 2018
本研究旨在推广理论收敛保证到具有非线性函数逼近的TD学习,考虑TD(0)算法估计值的预期学习动态,使用具有良好几何形状的函数逼近器的集合,证明了在更可逆的环境下TD学习的收敛性,同时进行了非线性的收敛和发散案例的探讨。
May, 2019
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
本文提出了一种自适应投影变体的临时差异(TD)学习算法AdaTD(0),它具有线性函数逼近和可证明稳定性,其实验结果表明其对于标准强化学习任务具有有效性。
Feb, 2020
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性TD设置中的二次损失,以证明TD的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了TD在强化学习中成功应用的理论解释。
Jun, 2023
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点θ₀周围半径为ω的球B(θ₀, ω)的神经时间差异学习的收敛性分析,展示了一个近似界限为O(ε)+~O(1/√m),其中ε是B(θ₀, ω)中最佳神经网络的逼近质量,而m是网络中所有隐藏层的宽度。
Dec, 2023
本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度Ο̃(ε^(-1)),在马尔可夫采样下取得了Ο̃(ε^(-1))的复杂度,相比现有文献中已知的Ο̃(ε^(-2))复杂度是第一次实现的研究。
May, 2024