没有学习率的时序差分更新

Oct, 2008

Temporal Difference Updating without a Learning Rate

Marcus Hutter, Shane Legg

TL;DR本文从统计原理出发，推导出一种新的时序差分学习公式，相比现有的 TD (lambda) 算法，不需要使用学习速率参数 alpha，而是针对每个状态转移具有自己的学习速率，实验结果表明该算法在强化学习任务中表现更为优异。

Abstract

We derive an equation for temporal difference learning from statistical principles. Specifically, we start with the variational principle and then bootstrap to produce an updating rule for discounted state value estimat

temporal difference learning discounted state value estimates learning rate reinforcement learning performance

发现论文，激发创造

关于广义贝尔曼方程和时间差分学习

该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Apr, 2017

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

一种强调的离线时序差分学习方法

本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根据需要确定不同状态的精确定价程度。

Mar, 2015

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

一种贪心方法用于适应时序差分学习的迹参数

本文提出了一种新的目标函数来优化 lambda，使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法，并在三个不同的环境中进行了实验，这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。

Jul, 2016

Taylor TD-learning

介绍了一种基于模型的强化学习框架 Taylor TD，通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题，并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。

Feb, 2023

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022