优先级时间差分学习

ICMLJun, 2021

Preferential Temporal Difference Learning

Nishanth Anand, Doina Precup

TL;DR在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Abstract

Temporal-Difference (TD) learning is a general and very useful tool for estimating the value function of a given policy, which in turn is required to find good policies. Generally speaking, TD learning updates states whenever they are visited. When the agent lands in a state, its value can be used to compute the TD-error, which is then propagated to other st

temporal-difference learning value function estimation state re-weighting linear function approximation empirical behavior

发现论文，激发创造

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024

神经网络的时序差分学习 —— 泄漏传播问题的研究

本研究探讨用函数逼近的时序差分学习论（TD）可收敛至比蒙特卡罗回归更劣的解的问题，以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据，并论证了仅当逼近误差时，这种情况会出现。最后，我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出，但是这并不意味着泄漏传播会发生以及何种情况下会发生，最后，我们测试了这个问题是否可以通过更好的状态表示来缓解，并且是否可以在无奖励或特权信息的情况下进行学习。

Jul, 2018

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023

没有学习率的时序差分更新

本文从统计原理出发，推导出一种新的时序差分学习公式，相比现有的 TD (lambda) 算法，不需要使用学习速率参数 alpha，而是针对每个状态转移具有自己的学习速率，实验结果表明该算法在强化学习任务中表现更为优异。

Oct, 2008

跨时间尺度分离价值函数

本文提出的 TD（Delta）算法是一种针对有限 horizon episodic reinforcement learning（RL）的 value function approximator，通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。

Feb, 2019

在强化学习中学习稀疏表示

本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Sep, 2019