线性函数逼近的离策多步 TD 学习分析

Feb, 2024

线性函数逼近的离策多步 TD 学习分析

Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation

Donghwan Lee

TL;DR本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Abstract

This paper analyzes multi-step td-learning algorithms within the `deadly triad' scenario, characterized by linear function approximation, off-policy learning, and →

multi-step td-learning algorithms `deadly triad linear function approximation off-policy learning bootstrapping

发现论文，激发创造

TD 学习与线性函数逼近的简单有限时间分析

TD 学习在马尔可夫采样下，通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法，我们证明了在常数步长和标准选择下，TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明，并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。

Mar, 2024

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

非线性 TD 学习收敛性的几何洞见

本研究旨在推广理论收敛保证到具有非线性函数逼近的 TD 学习，考虑 TD (0) 算法估计值的预期学习动态，使用具有良好几何形状的函数逼近器的集合，证明了在更可逆的环境下 TD 学习的收敛性，同时进行了非线性的收敛和发散案例的探讨。

May, 2019

探索深度强化学习中的差异化特征

基于线性近似 Q 值更新的分析方法，提出一种稳定的深度 Q 学习算法，不需要传统的技巧（如目标网络、自适应梯度优化器或使用多个 Q 函数）就能实现连续控制，并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。

Mar, 2019

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

使用目标网络打破致命三角

本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Jan, 2021