关于时序差分学习的统计优势

ICMLJan, 2023

On the Statistical Benefits of Temporal Difference Learning

David Cheikhi, Daniel Russo

TL;DR本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Abstract

Given a dataset on actions and resulting long-term rewards, a direct estimation approach fits value functions that minimize prediction error on the training data. →

value functions temporal difference learning markov chains prediction error trajectory crossing time

发现论文，激发创造

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

跨时间尺度分离价值函数

本文提出的 TD（Delta）算法是一种针对有限 horizon episodic reinforcement learning（RL）的 value function approximator，通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。

Feb, 2019

神经网络的时序差分学习 —— 泄漏传播问题的研究

本研究探讨用函数逼近的时序差分学习论（TD）可收敛至比蒙特卡罗回归更劣的解的问题，以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据，并论证了仅当逼近误差时，这种情况会出现。最后，我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出，但是这并不意味着泄漏传播会发生以及何种情况下会发生，最后，我们测试了这个问题是否可以通过更好的状态表示来缓解，并且是否可以在无奖励或特权信息的情况下进行学习。

Jul, 2018

分位数时序差分学习在价值估计中的统计优势

本研究探讨了强化学习中基于时间差分的策略评估问题，并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论，即使从业者对返回分布的平均值以外的部分不感兴趣，QTD（能够学习返回值的完整分布）在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。

May, 2023

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023