线性时间差学习中带任意特征的几乎确定收敛性

Sep, 2024

线性时间差学习中带任意特征的几乎确定收敛性

Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features

Jiuqi Wang, Shangtong Zhang

TL;DR本研究解决了线性时间差（TD）学习中线性独立特征不足的问题，首次在不要求特征线性独立的情况下证明了线性TD的几乎确定收敛性。通过新的分析方法，我们证明了近似值函数收敛至唯一点，并且权重迭代最终收敛到一个集合，展示了这一方法的重要性和潜在影响。

Abstract

Temporal difference (TD) learning with Linear Function Approximation, abbreviated as linear TD, is a classic and powerful prediction algorithm in Reinforcement Learning. While it is well understood that linear TD

发现论文，激发创造

关于函数逼近的TD(0)：集中界限和具有指数收敛的居中变量

本文提出了针对使用线性函数逼近器的时间差分学习算法TD(0)的非渐近界限。同时，也指出了除非我们对政策的马尔科夫链的稳态分布（部分）具有知识，否则步长反比于迭代次数不能保证最优收敛率。此外，我们为迭代平均的TD(0)变体提供了界限，同时消除了步长的依赖性，并表现出最优的收敛速度。此外，我们还提出了一种包含置中序列的TD(0)线性逼近器变型，并证明它在期望下表现出指数级的收敛速度。最后，我们在两个人工实验中展示了这些界限的有用性。

Nov, 2014

TD(0)函数逼近的有限样本分析

本文是首篇对TD(0)算法在线性情况下基于函数逼近进行有限采样分析的研究，并且通过利用TD(0)的强大属性，提供了期望和高概率的收敛速率，并使用最近开发的随机逼近技术采用了不同的方法来获得这两种收敛速率。

Apr, 2017

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用Dirichlet范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保TD算法的收敛性并解决梯度消失问题。

May, 2018

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于TD（λ）学习和应用于高维度最佳停止问题的Q-learning。

Jun, 2018

非线性TD学习收敛性的几何洞见

本研究旨在推广理论收敛保证到具有非线性函数逼近的TD学习，考虑TD(0)算法估计值的预期学习动态，使用具有良好几何形状的函数逼近器的集合，证明了在更可逆的环境下TD学习的收敛性，同时进行了非线性的收敛和发散案例的探讨。

May, 2019

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异(TD)学习算法AdaTD(0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

TD收敛性：一个优化视角

本研究探讨了时间差分（TD）学习算法的收敛行为，通过分析我们的发现，我们将其形式化应用于线性TD设置中的二次损失，以证明TD的收敛取决于两种力量的相互作用，并扩展到比线性逼近和平方损失更广泛的设置中，提供了TD在强化学习中成功应用的理论解释。

Jun, 2023

关于神经网络在时间差异学习中的性能

神经时间差异学习是一种用于策略评估的近似时间差异方法，它利用神经网络进行函数逼近。本论文通过对投影到初始点θ₀周围半径为ω的球B(θ₀, ω)的神经时间差异学习的收敛性分析，展示了一个近似界限为O(ε)+~O(1/√m)，其中ε是B(θ₀, ω)中最佳神经网络的逼近质量，而m是网络中所有隐藏层的宽度。

Dec, 2023

改进的有限时间分析: 基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度Ο̃(ε^(-1))，在马尔可夫采样下取得了Ο̃(ε^(-1))的复杂度，相比现有文献中已知的Ο̃(ε^(-2))复杂度是第一次实现的研究。

May, 2024