改进的有限时间分析:基于深度神经网络的时差学习
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析,展示了一个近似界限为 O (ε)+~O (1/√m),其中 ε 是 B (θ₀, ω) 中最佳神经网络的逼近质量,而 m 是网络中所有隐藏层的宽度。
Dec, 2023
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
本文提出了一种有限时间的神经 Q 学习算法,其中数据是从 Markov 决策过程中生成的,动作价值函数由 Deep ReLU 神经网络逼近,我们证明了如果神经功能逼近器被足够过度参数化,神经 Q 学习可以找到具有 O(1 / 根号 T)收敛速度的最优策略,并且该结果是对非 i.i.d 数据假设的首次有限时间分析。
Dec, 2019
本研究提出了一种分布式的 TD 算法,并对其性能进行了有限分析,探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。
Jul, 2019
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
Oct, 2023
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
May, 2019
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最后,我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出,但是这并不意味着泄漏传播会发生以及何种情况下会发生,最后,我们测试了这个问题是否可以通过更好的状态表示来缓解,并且是否可以在无奖励或特权信息的情况下进行学习。
Jul, 2018
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。
Apr, 2019
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018