分布式 TD 学习的原始对偶视角

Oct, 2023

A primal-dual perspective for distributed TD-learning

Han-Dong Lim, Donghwan Lee

TL;DR本文研究了分布式时间差异学习在网络化的多智能体马尔可夫决策过程中的应用，提出了基于分布式优化算法的方法，可以解释为在满足零空间约束的原始 - 对偶普通微分方程动力系统上的解，基于该系统在满足零空间约束的指数收敛行为，考察了在不同的分布式 TD 学习场景下，采用恒定和衰减步长，以及独立同分布和马尔可夫观测模型的最终迭代行为。与现有方法不同的是，该算法不需要假设底层通信网络结构为双随机矩阵。

Abstract

The goal of this paper is to investigate distributed temporal difference (TD) learning for a networked multi-agent markov decision process. The proposed approach is based on distributed optimization algorithms, w

distributed temporal difference learning networked multi-agent markov decision process distributed optimization algorithms primal-dual ordinary differential equation dynamics null-space constraints

发现论文，激发创造

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

网络化多智能体马尔可夫决策过程的分布式动态规划

该论文旨在研究分布式动态规划来解决网络化多智能体马尔可夫决策问题，通过控制理论视角提出了在连续时间领域的分布式动态规划，并证明了其收敛性，该分析可被视为分布式时态差异学习算法的初步常微分方程分析，其收敛性可通过 Borkar-Meyn 定理和单时间尺度方法证明。

Jul, 2023

TD 收敛性：一个优化视角

本研究探讨了时间差分（TD）学习算法的收敛行为，通过分析我们的发现，我们将其形式化应用于线性 TD 设置中的二次损失，以证明 TD 的收敛取决于两种力量的相互作用，并扩展到比线性逼近和平方损失更广泛的设置中，提供了 TD 在强化学习中成功应用的理论解释。

Jun, 2023

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

近端强化学习：原始对偶空间中序贯决策的新理论

本文提出了一种新的加强学习算法，使用似然变换、原始 - 对偶空间以及近端算子等技术，解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线 - 在线学习算法、如何将加强学习与随机优化理论相结合等问题，为相关理论做出了丰富的探索和创新。

May, 2014

非线性分布式梯度时序差分学习

提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

May, 2018

几乎没有通信的分布式 TD (0)

本文提出了一种新的分布式时间差异学习方法，该方法采用 “一次性平均” 策略，在分布式过程结束时平均结果，证明了并行优化对于时间差异方法收敛时间的提升。

May, 2023

基于目标的时序差分学习

本文介绍了一种新的基于目标的时间差分（TD）学习算法，并对其收敛性进行了理论分析，该算法与标准的 TD 学习不同，维护两个独立的学习参数 - 目标变量和在线变量，以加速 Deep Q 学习中目标网络的收敛。

Apr, 2019

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

监督学习的 MRP 公式化：广义时间差异学习模型

该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在特定条件下，尤其是在噪声相关时，TD 的解决方案比 OLS 更有效。在线性函数逼近下，该研究建立了广义 TD 算法的收敛性，并通过实证研究验证了理论结果，展示了该算法在各种数据集及任务（如回归和深度学习的图像分类）上的实用性。

Apr, 2024