目标网络如何稳定时序差分法
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。
Apr, 2019
介绍了一种将时间差异(TD)学习推广到相互关联预测网络的方法, TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别,并通过将预测之间的关系作为条件来提高学习效率,此外,还演示了 TD 网络可以学习预测状态表示,成为 TD 方法能力的实质性扩展之一,带我们更加接近以完全预测和基于经验的方式表达世界知识的目标。
Apr, 2015
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析,展示了一个近似界限为 O (ε)+~O (1/√m),其中 ε 是 B (θ₀, ω) 中最佳神经网络的逼近质量,而 m 是网络中所有隐藏层的宽度。
Dec, 2023
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
May, 2019
通过目标网络和超参数化线性函数逼近的组合,我们证明在某些情况下,即使使用离线数据,也可以建立起一个较弱的收敛条件来估计引导值。我们的条件自然满足对整个状态 - 动作空间进行期望更新或使用一批完整轨迹从情景马尔科夫决策过程中进行学习。值得注意的是,仅使用目标网络或超参数化模型无法提供这种收敛保证。此外,我们将结果推广到使用截断轨迹进行学习,并证明了在对任务进行轻微修改时,可以实现收敛性,类似于对轨迹中的最终状态进行值截断。我们的主要结果关注于预测的时序差异估计,并提供概率较高的值估计误差界和对 Baird 的对策和 Four-room 任务的实证分析。此外,我们探讨了控制设定,证明了类似的收敛条件适用于 Q 学习。
May, 2024
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最后,我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出,但是这并不意味着泄漏传播会发生以及何种情况下会发生,最后,我们测试了这个问题是否可以通过更好的状态表示来缓解,并且是否可以在无奖励或特权信息的情况下进行学习。
Jul, 2018
本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度 Ο̃(ε^(-1)),在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度,相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。
May, 2024
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019