经验回放的时间差分学习
本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估,并发现在特定的因素下,如奖励稀疏、奖励延迟和任务的感知复杂性等,有限时的 MC 方法不亚于 TD,这使得 MC 成为深度强化学习中可替代 TD 的选择。
Jun, 2018
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
Oct, 2023
本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响,并证明了在误差反馈机制的作用下,以及与线性函数逼近和马尔可夫采样一起使用时,压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外,本文还扩展了结果,提出了多智能体 TD 学习的线性收敛速度快速提升的证明。
Jan, 2023
本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度 Ο̃(ε^(-1)),在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度,相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。
May, 2024
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
Jul, 2023
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023