关于时序差分学习的统计优势
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
May, 2018
本文提出的 TD(Delta)算法是一种针对有限 horizon episodic reinforcement learning(RL)的 value function approximator,通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。
Feb, 2019
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最后,我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出,但是这并不意味着泄漏传播会发生以及何种情况下会发生,最后,我们测试了这个问题是否可以通过更好的状态表示来缓解,并且是否可以在无奖励或特权信息的情况下进行学习。
Jul, 2018
本研究探讨了强化学习中基于时间差分的策略评估问题,并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论,即使从业者对返回分布的平均值以外的部分不感兴趣,QTD(能够学习返回值的完整分布)在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。
May, 2023
本文提出了一种称之为 TD-MPC 的新型控制方法,该方法结合了基于模型和基于模型无关的方法。研究结果表明,该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。
Mar, 2022
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
Oct, 2023
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了联系,实证结果表明该方法在预测和控制问题上显著提高性能。
Dec, 2023