辨识时差学习
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了联系,实证结果表明该方法在预测和控制问题上显著提高性能。
Dec, 2023
本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估,并发现在特定的因素下,如奖励稀疏、奖励延迟和任务的感知复杂性等,有限时的 MC 方法不亚于 TD,这使得 MC 成为深度强化学习中可替代 TD 的选择。
Jun, 2018
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最后,我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出,但是这并不意味着泄漏传播会发生以及何种情况下会发生,最后,我们测试了这个问题是否可以通过更好的状态表示来缓解,并且是否可以在无奖励或特权信息的情况下进行学习。
Jul, 2018
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析,展示了一个近似界限为 O (ε)+~O (1/√m),其中 ε 是 B (θ₀, ω) 中最佳神经网络的逼近质量,而 m 是网络中所有隐藏层的宽度。
Dec, 2023
本文研究分布增强学习中的分布策略评估问题,并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能,通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系,同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。
Mar, 2024