目标网络如何稳定时序差分法

Feb, 2023

Why Target Networks Stabilise Temporal Difference Methods

Mattie Fellows, Matthew J. A. Smith, Shimon Whiteson

TL;DR本研究提供了对深度强化学习中关于目标网络的理论解释，通过对拟合部分策略估计方法的形式化定义，解释了目标网络为何可以稳定 TD 学习，并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。

Abstract

Integral to recent successes in deep reinforcement learning has been a class of temporal difference methods that use infrequently updated target values for →

deep reinforcement learning temporal difference methods target networks policy evaluation convergence

发现论文，激发创造

基于目标的时序差分学习

本文介绍了一种新的基于目标的时间差分（TD）学习算法，并对其收敛性进行了理论分析，该算法与标准的 TD 学习不同，维护两个独立的学习参数 - 目标变量和在线变量，以加速 Deep Q 学习中目标网络的收敛。

Apr, 2019

使用目标网络打破致命三角

本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Jan, 2021

时序差分网络

介绍了一种将时间差异（TD）学习推广到相互关联预测网络的方法， TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别，并通过将预测之间的关系作为条件来提高学习效率，此外，还演示了 TD 网络可以学习预测状态表示，成为 TD 方法能力的实质性扩展之一，带我们更加接近以完全预测和基于经验的方式表达世界知识的目标。

Apr, 2015

关于神经网络在时间差异学习中的性能

神经时间差异学习是一种用于策略评估的近似时间差异方法，它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析，展示了一个近似界限为 O (ε)+~O (1/√m)，其中 ε 是 B (θ₀, ω) 中最佳神经网络的逼近质量，而 m 是网络中所有隐藏层的宽度。

Dec, 2023

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

目标网络和过参数化稳定函数逼近下的离线策略引导

通过目标网络和超参数化线性函数逼近的组合，我们证明在某些情况下，即使使用离线数据，也可以建立起一个较弱的收敛条件来估计引导值。我们的条件自然满足对整个状态 - 动作空间进行期望更新或使用一批完整轨迹从情景马尔科夫决策过程中进行学习。值得注意的是，仅使用目标网络或超参数化模型无法提供这种收敛保证。此外，我们将结果推广到使用截断轨迹进行学习，并证明了在对任务进行轻微修改时，可以实现收敛性，类似于对轨迹中的最终状态进行值截断。我们的主要结果关注于预测的时序差异估计，并提供概率较高的值估计误差界和对 Baird 的对策和 Four-room 任务的实证分析。此外，我们探讨了控制设定，证明了类似的收敛条件适用于 Q 学习。

May, 2024

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

神经网络的时序差分学习 —— 泄漏传播问题的研究

本研究探讨用函数逼近的时序差分学习论（TD）可收敛至比蒙特卡罗回归更劣的解的问题，以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据，并论证了仅当逼近误差时，这种情况会出现。最后，我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出，但是这并不意味着泄漏传播会发生以及何种情况下会发生，最后，我们测试了这个问题是否可以通过更好的状态表示来缓解，并且是否可以在无奖励或特权信息的情况下进行学习。

Jul, 2018

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019