经验回放的时间差分学习

Jun, 2023

Temporal Difference Learning with Experience Replay

Han-Dong Lim, Donghwan Lee

TL;DR本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法，并提出了对其有限时间和误差控制的方法。

Abstract

Temporal-difference (TD) learning is widely regarded as one of the most popular algorithms in reinforcement learning (RL). Despite its widespread use, it has only been recently that researchers have begun to actively study its →

temporal-difference learning reinforcement learning finite time behavior mean squared error experience replay

发现论文，激发创造

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

利用压缩更新的时序差分学习：误差反馈与强化学习相遇

本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响，并证明了在误差反馈机制的作用下，以及与线性函数逼近和马尔可夫采样一起使用时，压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外，本文还扩展了结果，提出了多智能体 TD 学习的线性收敛速度快速提升的证明。

Jan, 2023

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023