线性函数逼近的离策多步 TD 学习分析
TD 学习在马尔可夫采样下,通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法,我们证明了在常数步长和标准选择下,TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明,并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。
Mar, 2024
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的 Minimax 下界相匹配,包括特征映射的选择和问题维数。
May, 2023
本文提出了改进的强化学习算法及其复杂度分析,该算法使用离线学习和线性函数逼近,并使用时间差分学习和自然策略梯度优化,其采样复杂度为 O (ϵ^−3)。
May, 2021
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
本研究旨在推广理论收敛保证到具有非线性函数逼近的 TD 学习,考虑 TD (0) 算法估计值的预期学习动态,使用具有良好几何形状的函数逼近器的集合,证明了在更可逆的环境下 TD 学习的收敛性,同时进行了非线性的收敛和发散案例的探讨。
May, 2019
基于线性近似 Q 值更新的分析方法,提出一种稳定的深度 Q 学习算法,不需要传统的技巧(如目标网络、自适应梯度优化器或使用多个 Q 函数)就能实现连续控制,并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。
Mar, 2019