网络化多智能体马尔可夫决策过程的分布式动态规划

Jul, 2023

网络化多智能体马尔可夫决策过程的分布式动态规划

Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes

Okyong Choi, Donghwan Lee

TL;DR该论文旨在研究分布式动态规划来解决网络化多智能体马尔可夫决策问题，通过控制理论视角提出了在连续时间领域的分布式动态规划，并证明了其收敛性，该分析可被视为分布式时态差异学习算法的初步常微分方程分析，其收敛性可通过 Borkar-Meyn 定理和单时间尺度方法证明。

Abstract

The main goal of this paper is to investigate distributed dynamic programming (DP) to solve networked multi-agent markov decision problems (MDPs). We consider a →

distributed dynamic programming networked multi-agent markov decision problems distributed multi-agent case communication network convergence

发现论文，激发创造

分布式 TD 学习的原始对偶视角

本文研究了分布式时间差异学习在网络化的多智能体马尔可夫决策过程中的应用，提出了基于分布式优化算法的方法，可以解释为在满足零空间约束的原始 - 对偶普通微分方程动力系统上的解，基于该系统在满足零空间约束的指数收敛行为，考察了在不同的分布式 TD 学习场景下，采用恒定和衰减步长，以及独立同分布和马尔可夫观测模型的最终迭代行为。与现有方法不同的是，该算法不需要假设底层通信网络结构为双随机矩阵。

Oct, 2023

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012

带私有状态的自利智能体之间的最优协调规划

对于多智能体系统中的动态和不确定环境，我们提出了一种激励兼容机制，以实现感应随机博弈的马尔可夫完美均衡下的最佳联合计划，特别地，我们运用吉廷斯分配指数提供高效的分布式算法，并将最优策略的计算分配给代理。

Jun, 2012

本地相互依赖的多智能体 MDP：分散智能体与动态依赖的理论框架

我们提出并从理论上分析了一种名称为局部相互依赖的多智能体马尔可夫决策过程的分散模型，该模型可以代表协作导航、避障和形成控制等许多不同领域的问题。尽管普遍的部分可观测多智能体系统很难处理，但我们提出了三种闭合形式的策略，在这种情况下理论上是近似最优的，并且可以扩展到可计算和存储。因此，我们揭示了局部相互依赖的多智能体马尔可夫决策过程的一个基本特性，即部分可观测的分散解决方案与可见半径相对于完全可观测解决方案指数级接近。然后，我们讨论了将我们的闭合形式策略扩展以进一步改善可处理性的方法。最后，我们提供了模拟实验来研究我们的闭合形式策略在长期情景下的一些行为。

Jun, 2024

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

分布式强化学习的多智能体离线演员 - 评论家算法

本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Mar, 2019

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

分散式控制马尔可夫决策过程的复杂性

探讨了具有部分状态信息的分布式智能体的规划问题，介绍了对 MDP 和 POMDP 模型的推广，研究表明分散控制与集中控制在马尔可夫过程中的根本差异，相关问题不适合使用多项式时间算法来求解，需要使用双指数时间算法求解。

Jan, 2013

动态有向图中的离散分布优化

我们提出了一个分布式优化的离散时间模型，适用于具有动态有向图的连续时间分布式学习，并消除了对链接进行随机权重设计的需求，通过共识算法、矩阵扰动理论和 Lyapunov 理论，我们证明了梯度跟踪步长和离散时间步长的收敛性和动态稳定性，该工作在链接删除或数据丢失的情况下改善了现有随机权重无向网络的性能，而无需重新运行耗时和计算复杂的算法。该提出的优化框架在分布式分类和学习中具有应用价值。

Nov, 2023