非线性 TD 学习收敛性的几何洞见
本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时,也指出了除非我们对政策的马尔科夫链的稳态分布(部分)具有知识,否则步长反比于迭代次数不能保证最优收敛率。此外,我们为迭代平均的 TD (0) 变体提供了界限,同时消除了步长的依赖性,并表现出最优的收敛速度。此外,我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型,并证明它在期望下表现出指数级的收敛速度。最后,我们在两个人工实验中展示了这些界限的有用性。
Nov, 2014
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应用的理论解释。
Jun, 2023
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
May, 2019
本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0),它具有线性函数逼近和可证明稳定性,其实验结果表明其对于标准强化学习任务具有有效性。
Feb, 2020
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。
Feb, 2024
TD 学习在马尔可夫采样下,通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法,我们证明了在常数步长和标准选择下,TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明,并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。
Mar, 2024
本文研究了使用时差学习算法评估连续时间进程的策略评估问题,并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正,我们提出了一种鲁棒的算法,包括两种算法:一种是基于模型的算法,另一种是基于无模型的算法,其收敛性得到了证明。此外,该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。
Feb, 2022