一种收敛的离策略时序差分算法

Nov, 2019

A Convergent Off-Policy Temporal Difference Algorithm

Raghuram Bharadwaj Diddigi, Chandramouli Kamanchi, Shalabh Bhatnagar

TL;DR本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Abstract

Learning the value function of a given policy (target policy) from the data samples obtained from a different policy (behavior policy) is an important problem in reinforcement learning (RL). This problem is studied under the setting of →

reinforcement learning off-policy prediction td learning linear function approximation convergence analysis

发现论文，激发创造

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

链式价值函数用于离策略学习

该论文提出了一种新的家族离线预测算法，通过构建一系列价值函数来实现稳定的模型迭代，算法收敛且可以有效的处理离线强化学习过程中的问题。

Jan, 2022

在线离线策略预测

研究在线预测学习的问题，讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能，提供了两个具有挑战性的微观世界中的实证研究结果，总结了脱机学习的相关方法，提供了新的见解，使从业者能够成功应用于大规模应用。

Nov, 2018

TD 收敛性：一个优化视角

本研究探讨了时间差分（TD）学习算法的收敛行为，通过分析我们的发现，我们将其形式化应用于线性 TD 设置中的二次损失，以证明 TD 的收敛取决于两种力量的相互作用，并扩展到比线性逼近和平方损失更广泛的设置中，提供了 TD 在强化学习中成功应用的理论解释。

Jun, 2023

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

正则化的离线 TD 学习

本文提出了一种新的 $l_1$ 正则化的离策略收敛 TD 学习方法（称为 RO-TD），能够以较低的计算复杂度学习值函数的稀疏表示，并且具有在线凸正则化的特征选择能力。详细的理论和实验分析表明该算法具有离策略收敛、稀疏特征选择能力和低计算成本。

Jun, 2020

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015