本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
Jun, 2021
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最后,我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出,但是这并不意味着泄漏传播会发生以及何种情况下会发生,最后,我们测试了这个问题是否可以通过更好的状态表示来缓解,并且是否可以在无奖励或特权信息的情况下进行学习。
Jul, 2018
本文介绍了使用 TD 方法估计值函数的优势,即使用一种新的度量方法 - 问题的轨迹跨越时间,可以在一定程度上提高两个状态的值差的测量准确性。
Jan, 2023
提出了一种新型的时序差异学习算法(DTD),通过引入灵活的权重分配函数,能够提高值估计并在不同情境中加速学习。
Oct, 2023
提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移,存储空间呈对数增长。
Aug, 2023
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0),它具有线性函数逼近和可证明稳定性,其实验结果表明其对于标准强化学习任务具有有效性。
Feb, 2020
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
提出了分布式渐进时间差分(TD)学习的变体,并设计了新的分布式 GTD2 和分布式 TDC 算法,以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。
May, 2018