Taylor TD-learning
本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估,并发现在特定的因素下,如奖励稀疏、奖励延迟和任务的感知复杂性等,有限时的 MC 方法不亚于 TD,这使得 MC 成为深度强化学习中可替代 TD 的选择。
Jun, 2018
介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数,称为时间差分模型,它可以利用状态转移的丰富信息来非常高效地学习,同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明,在一系列连续控制任务中,TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。
Feb, 2018
本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用,使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。
Sep, 2019
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
Jul, 2023
探讨了 TD-learning 对时间序列中状态表示的影响,特别是在环境可逆的情况下,TD-learning 可以严格减少价值近似误差,同时将其与转移矩阵的谱分解相联系,并用随机生成的奖励拟合多个值函数来辅助表征学习。
May, 2023
提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法,该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合,实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。
May, 2024