带离线修正的 Q ($λ$)

Feb, 2016

Q($λ$) with Off-Policy Corrections

Anna Harutyunyan, Marc G. Bellemare, Tom Stepleton, Remi Munos

TL;DR这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。

Abstract

We propose and analyze an alternate approach to off-policy multi-step temporal difference learning, in which off-policy returns are corrected with the current q-function in terms of rewards, rather than with the target policy in terms of transition probabilities. We prove that such app

off-policy learning multi-step temporal difference policy evaluation policy control q-function

发现论文，激发创造

关于广义贝尔曼方程和时间差分学习

该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Apr, 2017

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

一种时差方法用于策略梯度估计

本文提出一种无需特定抽样策略即可从起始状态重构策略梯度的新方法。通过使用来自离线数据流的梯度评论家的时序差异更新，开发了首个可以无模型地避开分布转移问题的估计器。实验证明，其具有良好的偏差 - 方差平衡和性能表现。

Feb, 2022

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

非策略分布 Q ($λ$): 无重要性抽样的分布式强化学习

介绍了一种新的离线策略分布式 Q (λ) 评估算法，它与已有的算法不同之处在于不使用重要性抽样，并且在与符号测度的交互过程中具有独特的性质。通过表格实验验证了分布式 Q (λ) 的算法性质和理论洞见的有效性，并展示了将 Q (λ) 与 C51 代理相结合的分布式 Q (λ)-C51 在深度 RL 基准测试中取得的有希望的结果。

Feb, 2024

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

安全高效的离线策略强化学习

该研究针对基于返回值的离策略学习算法进行重新学习，提出了一种名为 Retrace (lambda) 的新算法，该算法具有低方差、安全、高效等三种性质，并能在无 GLIE 假设的情况下收敛。最终将 Retrace (lambda) 应用于 Atari 2600 游戏数据中并验证了其有效性。

Jun, 2016

带状态分布修正的离策略策略梯度

该研究针对 Markov 决策过程中的离策略策略优化问题，开发了一种新颖的离策略策略梯度方法，解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题，并提供了该方法的理论收敛保证和实验验证。

Apr, 2019