基于 Gossip 的分布式强化学习

Oct, 2013

Distributed Reinforcement Learning via Gossip

Adwaitvedant S. Mathkar, Vivek S. Borkar

TL;DR本研究考虑了在代理人网络中实现经典的 TD (0) 算法，并在代理人之间使用类似流言蜚语的机制传递更新。该组合方案被证明可以收敛于折扣和平均成本问题。

Abstract

We consider the classical TD(0) algorithm implemented on a network of agents wherein the agents also incorporate the updates received from neighboring agents using a gossip-like mechanism. The combined scheme is

td(0)network of agents gossip-like mechanism discounted cost problems average cost problems

发现论文，激发创造

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

流言模型中的分散式学习动态

研究在流言传播模型中的分布式多臂赌博设置在 n 个。内存受限节点的人口中：在每个回合中，每个节点本地采取 m 个手臂之一，观察从手臂中获得的回报（敌意选择）分布，然后与随机抽样的邻居进行通信，交换信息以确定其在下一轮中的策略。我们引入和分析了这个任务的几族动力学，这些动力学是分散的；每个节点的决策完全是本地的，并且仅取决于最近获得的奖励及其抽样邻居的奖励。我们展示了这些分散动态的全局演化与某种 “零和” 乘性权重更新算法之间的联系，并且我们开发了一个通用框架来分析这些自然协议的种群水平遗憾。利用这个框架，在广泛的参数范围下 (即人口规模和臂数)，我们推导出静态奖励设置 (每个臂的分布均值随时间固定) 和敌意奖励设置 (均值随时间可变) 的次线性遗憾界。此外，我们还表明，当奖励分布是由随机梯度量规产生时，这些协议可以近似地优化面对单纯形的凸函数。

Jun, 2023

通过量化通信的流言共识算法

本文研究基于成对 “流言” 通信和更新的数字链接网络上的平均共识问题，并提出一组算法。我们研究了这些算法的收敛性质，旨在回答两个设计问题：代理应该通过确定性或随机量化器编码其通信，以及他们应该如何使用自己状态的精确信息来更新。

Jul, 2009

几乎没有通信的分布式 TD (0)

本文提出了一种新的分布式时间差异学习方法，该方法采用 “一次性平均” 策略，在分布式过程结束时平均结果，证明了并行优化对于时间差异方法收敛时间的提升。

May, 2023

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012

高效分布式在线预测和随机优化：近似分布式平均方法

研究分布式方法用于在线预测和随机优化，并提出了基于 gossip 的优化方法以实现最优的后悔界限。

Mar, 2014

基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则

本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程 (MMDP)，通过黑韦尔的可接近性定理，目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。通过在 Q-learning 算法中结合每个智能体成本的加权组合，其中成本是通过具有 Metropolis-Hastings 或乘法权重形式的传闻算法来调制传闻的平均矩阵，我们使用了多个时间尺度的算法，并证明在温和条件下，它近似实现了每个智能体的期望界限。我们还在具有联合控制的每个阶段成本的更一般的 MMDP 设置中展示了该算法的实证性能。

Nov, 2023

网络上个性化模型的分散协作学习

本论文研究了一组学习代理在协作对等网络中，每个代理根据自己的学习目标学习个性化模型。本文介绍和分析了两种异步流言算法，以完全分散的方式运行。我们的第一种方法旨在在网络上平滑预训练的本地模型，同时考虑每个代理在其初始模型中的置信度。在我们的第二种方法中，代理共同学习和传播其模型，基于其本地数据集和邻居的行为进行迭代更新，为了优化这一具有挑战性的目标，我们的分散算法是基于 ADMM。

Oct, 2016

多行为策略下的分布式策略评估

采用扩散策略，将全分布式协作强化学习算法应用于分布式网络，实现仅与直接相邻的智能体通信以改进他们对环境的预测能力，具有线性计算时间和内存占用的高效分布式策略，可应用于离线学习和连续学习，以减少预测误差的偏差和方差，实现全局最优解的学习。

Dec, 2013