正则化的离线 TD 学习

NIPSJun, 2020

Regularized Off-Policy TD-Learning

Bo Liu, Sridhar Mahadevan, Ji Liu

TL;DR本文提出了一种新的 $l_1$ 正则化的离策略收敛 TD 学习方法（称为 RO-TD），能够以较低的计算复杂度学习值函数的稀疏表示，并且具有在线凸正则化的特征选择能力。详细的理论和实验分析表明该算法具有离策略收敛、稀疏特征选择能力和低计算成本。

Abstract

We present a novel $l_1$ regularized off-policy convergent td-learning method (termed RO-TD), which is able to learn sparse representations of value functions with low computational complexity. The algorithmic framework underlying RO-TD integrates two key ideas: off-policy convergent g

convergent td-learning $l_1$ regularization sparse representation value function feature selection

发现论文，激发创造

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

引导协变移位进行深度强化学习的离线策略

本文介绍了一种针对强化学习中离线学习的校正方法（COP-TD），并通过引入折扣因子解决了非线性函数近似中的问题，进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚，此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。

Jan, 2019

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020

链式价值函数用于离策略学习

该论文提出了一种新的家族离线预测算法，通过构建一系列价值函数来实现稳定的模型迭代，算法收敛且可以有效的处理离线强化学习过程中的问题。

Jan, 2022

强化学习中的三次正则化策略牛顿算法

论文探讨了基于强化学习的控制问题，提出了两种策略牛顿算法，并证明了算法的渐进收敛性和样本复杂度。

Apr, 2023

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

TD 收敛性：一个优化视角

本研究探讨了时间差分（TD）学习算法的收敛行为，通过分析我们的发现，我们将其形式化应用于线性 TD 设置中的二次损失，以证明 TD 的收敛取决于两种力量的相互作用，并扩展到比线性逼近和平方损失更广泛的设置中，提供了 TD 在强化学习中成功应用的理论解释。

Jun, 2023