时序差分网络

Apr, 2015

Temporal-Difference Networks

Richard S. Sutton, Brian Tanner

TL;DR介绍了一种将时间差异（TD）学习推广到相互关联预测网络的方法， TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别，并通过将预测之间的关系作为条件来提高学习效率，此外，还演示了 TD 网络可以学习预测状态表示，成为 TD 方法能力的实质性扩展之一，带我们更加接近以完全预测和基于经验的方式表达世界知识的目标。

Abstract

We introduce a generalization of temporal-difference (TD) learning to networks of interrelated predictions. Rather than relating a single prediction to itself at a later time, as in conventional TD methods, a td network relates each prediction in a set of predictions to other predictio

temporal-difference learning td network predictive state representations inter-predictive relationships learning-efficiency

发现论文，激发创造

关于神经网络在时间差异学习中的性能

神经时间差异学习是一种用于策略评估的近似时间差异方法，它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析，展示了一个近似界限为 O (ε)+~O (1/√m)，其中 ε 是 B (θ₀, ω) 中最佳神经网络的逼近质量，而 m 是网络中所有隐藏层的宽度。

Dec, 2023

神经网络的时序差分学习 —— 泄漏传播问题的研究

本研究探讨用函数逼近的时序差分学习论（TD）可收敛至比蒙特卡罗回归更劣的解的问题，以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据，并论证了仅当逼近误差时，这种情况会出现。最后，我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出，但是这并不意味着泄漏传播会发生以及何种情况下会发生，最后，我们测试了这个问题是否可以通过更好的状态表示来缓解，并且是否可以在无奖励或特权信息的情况下进行学习。

Jul, 2018

基于目标的时序差分学习

本文介绍了一种新的基于目标的时间差分（TD）学习算法，并对其收敛性进行了理论分析，该算法与标准的 TD 学习不同，维护两个独立的学习参数 - 目标变量和在线变量，以加速 Deep Q 学习中目标网络的收敛。

Apr, 2019

目标网络如何稳定时序差分法

本研究提供了对深度强化学习中关于目标网络的理论解释，通过对拟合部分策略估计方法的形式化定义，解释了目标网络为何可以稳定 TD 学习，并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。

Feb, 2023

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

TDN：高效行为识别的时序差分网络

本文提出了一种新的视觉结构，称为 Temporal Difference Network (TDN)，其核心是通过一个高效的 Temporal Difference Module (TDM) 来捕获多尺度信息，以提高动作识别的效率。在 Something-Something V1＆V2 数据集上，TDN 呈现了一个新的最高水平，并且与 Kinetics-400 数据集上的最佳性能持平，同时我们还对 TDN 进行了深入的消融研究和可视化结果的绘制，为时序差分建模提供了全面的分析。

Dec, 2020

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

分布式 TD 学习的原始对偶视角

本文研究了分布式时间差异学习在网络化的多智能体马尔可夫决策过程中的应用，提出了基于分布式优化算法的方法，可以解释为在满足零空间约束的原始 - 对偶普通微分方程动力系统上的解，基于该系统在满足零空间约束的指数收敛行为，考察了在不同的分布式 TD 学习场景下，采用恒定和衰减步长，以及独立同分布和马尔可夫观测模型的最终迭代行为。与现有方法不同的是，该算法不需要假设底层通信网络结构为双随机矩阵。

Oct, 2023