分布式 TD ($λ$) 的单次平均化方法在马尔可夫采样下应用

Mar, 2024

分布式 TD ($λ$) 的单次平均化方法在马尔可夫采样下应用

One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling

Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky

TL;DR我们考虑一种分布式设置的强化学习，其中每个智能体都有相同的马尔可夫决策过程的副本，但是转移矩阵由每个智能体独立进行采样。我们表明在这个设置中，我们可以通过 ' 一次性平均 ' 的过程，使得 N 个智能体对策略进行 N 倍的速度加速，前提是目标准确性足够小。这种加速是相对于先前的工作来说通信所需量大大减少的线性加速方法。

Abstract

We consider a distributed setup for reinforcement learning, where each agent has a copy of the same markov decision process but transition

distributed setup reinforcement learning markov decision process linear speedup td(λ)

发现论文，激发创造

几乎没有通信的分布式 TD (0)

本文提出了一种新的分布式时间差异学习方法，该方法采用 “一次性平均” 策略，在分布式过程结束时平均结果，证明了并行优化对于时间差异方法收敛时间的提升。

May, 2023

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

一种新方法：本地 TD 更新的样本和通信高效的完全分散的多智能体强化学习策略评估

在完全分散的多智能体强化学习（MARL）的演员 - 评论家框架中，MARL 策略评估（PE）问题是其中的一个关键组件，其中一组 N 个智能体通过与邻居通信合作评估给定策略下的全局状态的值函数。本文首次尝试回答一个有趣的开放问题：本地 TD 更新方法是否能够降低样本复杂性和通信复杂性。我们的理论和实验结果证实了允许执行多个本地 TD 更新步骤确实是降低 MARL-PE 的样本复杂性和通信复杂性的有效方法。

Mar, 2024

分布式 Q-learning 的有限时间分析

多智能体强化学习在分布式 Q 学习场景中的有限时间分析及样本复杂度结果

May, 2024

基于 Gossip 的分布式强化学习

本研究考虑了在代理人网络中实现经典的 TD (0) 算法，并在代理人之间使用类似流言蜚语的机制传递更新。该组合方案被证明可以收敛于折扣和平均成本问题。

Oct, 2013

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

高效分布式在线预测和随机优化：近似分布式平均方法

研究分布式方法用于在线预测和随机优化，并提出了基于 gossip 的优化方法以实现最优的后悔界限。

Mar, 2014

使用分布式双均值在网络中指数级快速进行参数估计

本文提出了一种基于优化的分布参数估计和观察性社交学习方法，演示了如何使用分布式，在线的 Nesterov 双平均法解决纯粹依靠本地信息的估计，并证明了代理最终可以使用随机瓦解方案学习真实参数。

Sep, 2013