具有资格追踪的离线学习：一份调查报告

Apr, 2013

具有资格追踪的离线学习：一份调查报告

Off-policy Learning with Eligibility Traces: A Survey

Matthieu Geist, Bruno Scherrer

TL;DR采用资格追踪技术对现有算法进行了系统的改进，并提出了新的扩展算法，比较实验结果表明标准的 on-policy 和 off-policy LSTD（λ）/LSPE（λ）算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD（λ）算法最佳。

Abstract

In the framework of markov decision processes, off-policy learning, that is the problem of learning a linear approximation of the

markov decision processes off-policy learning linear approximation value function eligibility traces

发现论文，激发创造

关于广义贝尔曼方程和时间差分学习

该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Apr, 2017

基于随机投影和资格追踪的 LSTD 有限样本分析

该研究提出了一种利用随机投影和资格痕迹策略处理高维特征空间下的政策评估问题的新算法，经过理论分析，证明其比之前的算法表现更好。

May, 2018

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证

我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题，特别是部分观测环境中，具有重要价值。

Jun, 2024

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015

在线离线策略预测

研究在线预测学习的问题，讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能，提供了两个具有挑战性的微观世界中的实证研究结果，总结了脱机学习的相关方法，提供了新的见解，使从业者能够成功应用于大规模应用。

Nov, 2018

马尔可夫决策过程中最佳策略识别的自适应采样

本文研究在马尔可夫决策过程中，通过生成模型来识别最优策略，提出了 KLB-TS 算法，并提供了其样本复杂度的渐近保证。

Sep, 2020

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023