$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

Apr, 2012

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

$QD$-Learning: A Collaborative Distributed Strategy for Multi-Agent Reinforcement Learning Through Consensus + Innovations

PDF

Soummya Kar, Jose' M.F. Moura, H. Vincent Poor

TL;DR该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Abstract

The paper considers a class of multi-agent markov decision processes (MDPs), in which the network agents respond differently (as manifested by the instantaneous one-stage random costs) to a global controlled state and the control actions of a remote controller. The paper investigates a

multi-agent markov decision processes distributed reinforcement learning $q$-learning mutual information exchange asymptotic optimality

发现论文，激发创造

基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则

本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程 (MMDP)，通过黑韦尔的可接近性定理，目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。通过在 Q-learning 算法中结合每个智能体成本的加权组合，其中成本是通过具有 Metropolis-Hastings 或乘法权重形式的传闻算法来调制传闻的平均矩阵，我们使用了多个时间尺度的算法，并证明在温和条件下，它近似实现了每个智能体的期望界限。我们还在具有联合控制的每个阶段成本的更一般的 MMDP 设置中展示了该算法的实证性能。

Nov, 2023

合作多智体强化学习的共识学习

本研究提出了一种协作多智能体强化学习的共识学习方法，通过基于本地观察的共识学习，在分散式执行期间将推断出来的共识明确地作为智能体网络的输入，从而发展他们的合作精神，并在若干完全合作任务上获得了令人信服的结果。

Jun, 2022

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

网络化多智能体马尔可夫决策过程的分布式动态规划

该论文旨在研究分布式动态规划来解决网络化多智能体马尔可夫决策问题，通过控制理论视角提出了在连续时间领域的分布式动态规划，并证明了其收敛性，该分析可被视为分布式时态差异学习算法的初步常微分方程分析，其收敛性可通过 Borkar-Meyn 定理和单时间尺度方法证明。

Jul, 2023

零和马尔可夫博弈的分散式 Q 学习

本研究在非协调控制下，针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态，该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点，并且可以有效应对非固定环境的挑战。

Jun, 2021

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

多智能体特征行列式 Q 学习

本文提出一种基于 Q-DPP 的多智能体 Q 学习方法，用于解决分布式合作任务中的中心化训练和分散执行，消除了限制性假设，并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。

Jun, 2020

马尔可夫决策过程中的联邦控制

研究马尔可夫决策过程中的联合控制问题，介绍了多个学习代理的概念，使用名为联合 Q 协议（FedQ）的通信协议解决大状态空间下的 MDP，理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度，实验证明了方法的有效性。

May, 2024

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

马尔可夫潜在博弈中的独立和去中心化学习

该论文提出了一种多智能体强化学习动态模型，分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行，重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。

May, 2022