贝尔特反例已解决：附带两个时间尺度算法调试示例

Aug, 2023

贝尔特反例已解决：附带两个时间尺度算法调试示例

Baird Counterexample Is Solved: with an example of How to Debug a Two-time-scale Algorithm

Hengshuai Yao

TL;DR针对 Baird 反例问题，研究解决了 TD 算法在该问题上发散以及收敛速度缓慢的问题，并提出了具有收敛保证和快速收敛率的算法解决了 Baird 反例问题。

Abstract

baird counterexample was proposed by Leemon Baird in 1995, first used to show that the temporal difference (TD(0)) algorithm diverges on this example. Since then, it is often used to test and compare

baird counterexample temporal difference off-policy learning algorithms convergence slowness

发现论文，激发创造

两个时间尺度的离线 TD 学习：对马尔可夫样本的非渐进分析

本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析，并在此基础上提出了具有分块减小的步长的 TDC 算法，实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度，并在减小步长的情况下仍保持与 TDC 相当的精度。

Sep, 2019

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

最紧密的有限时间界约束下的两时间尺度强化学习故事

以两时间步随机逼近框架为基础的渐变时序差异方法（GTD (0)、GTD2 和 TDC）的收敛速率界限及其证明。

Nov, 2019

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

TD 收敛性：一个优化视角

本研究探讨了时间差分（TD）学习算法的收敛行为，通过分析我们的发现，我们将其形式化应用于线性 TD 设置中的二次损失，以证明 TD 的收敛取决于两种力量的相互作用，并扩展到比线性逼近和平方损失更广泛的设置中，提供了 TD 在强化学习中成功应用的理论解释。

Jun, 2023

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

一种仅使用一个步长的新渐变 TD 算法：使用 $L$-$λ$ 平滑性进行收敛速率分析

本文介绍了一种名为 Impression GTD 的全新 GTD 算法，通过最小化期望 TD 更新的范数目标实现单时间尺度，并证明该算法的收敛速度至少为 O (1/t)，甚至更快。同时，与现有的 GTD 算法相比，该算法在在线学习和离线学习问题中表现更快，具有比较稳定的步长范围。

Jul, 2023

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

Proximal Gradient TD 算法的有限样本分析

本文旨在分析梯度时序差分学习（GTD）算法族的收敛速率，将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法，并进行鞍点误差分析以获得其性能的有限样本界限，提出了两种改进的算法，即投影 GTD2 和 GTD2-MP，理论分析结果表明，GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。

Jun, 2020

两时间尺度值基强化学习算法的样本复杂度界限

本文研究了基于价值的强化学习算法中，线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度，并给出了最优的样本复杂度和最优化误差控制速率。

Nov, 2020