有限通信范围下的线性二次网络控制的分布式策略梯度

Mar, 2024

有限通信范围下的线性二次网络控制的分布式策略梯度

Distributed Policy Gradient for Linear Quadratic Networked Control with Limited Communication Range

Yuzi Yan, Yuan Shen

TL;DR本文提出了一种可扩展的分布式策略梯度方法，并证明其在多智能体线性二次网络系统中收敛于近似最优解。代理在指定网络内根据局部通信约束进行交互，即每个代理只能与有限数量的相邻代理交换信息。在网络的基础图上，每个代理在线性二次控制环境中根据附近邻居的状态实施其控制输入。我们表明只使用局部信息可以近似计算出精确的梯度。与集中式最优控制器相比，随着通信和控制范围的增加，性能差异指数级下降至零。我们还展示了如何增加通信范围来增强梯度下降过程中的系统稳定性，从而阐明了一个关键的权衡。仿真结果验证了我们的理论发现。

Abstract

This paper proposes a scalable distributed policy gradient method and proves its convergence to near-optimal solution in multi-agent linear quadratic networked systems. The agents engage within a specified networ

发现论文，激发创造

分布式强化学习中通信高效的多智能体Actor-Critic算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

具梯度跟踪和方差缩减的网络分布式优化通信效率提高

本文提出了一种基于去中心化网络的、通信效率高且线性收敛的近似牛顿方法，该方法可以用于复合优化，并且通过本地通信和计算，可以显著提高总体效率。

Sep, 2019

强化学习优化：从单智能体到协作智能体

该文章回顾了多智能体强化学习算法在大型控制系统和通信网络方面的最新进展，主要关注不同协调协议下的分散设置，并从分布式优化的视角突出了强化学习算法从单一智能体到多智能体系统的演变，强调多智能体强化学习与分布式优化、信号处理之间的合作，并总结了未来的发展方向与挑战。

Dec, 2019

分布式强化学习应用于分布式线性二次控制：无导数策略优化方法

本文提出了一种名为 ZODPO 的算法，它是一种基于 policy gradient、零阶优化和共识算法的分布式强化学习算法，用于解决分散线性二次控制问题，该算法具有良好的可伸缩性，适用于大规模系统，并可用于多区域 HVAC 系统。

Dec, 2019

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

一种灵活的梯度追踪方法的计算-通讯权衡

提出了一种灵活的梯度跟踪方法，用于解决非独立同分布情况下网络上的分布式随机优化问题，利用设计良好的李亚普诺夫函数，导出了计算和通信复杂度，以实现在光滑和强凸目标函数上的任意精度。

Jun, 2023

受限强凸性下的预条件PI一致性算法的线性收敛

该研究通过使用比例积分（PI）控制策略，在同步连接的点对点多智能体网络中解决分布式凸优化问题。它提出了PI共识算法，利用Lyapunov理论保证了限制强凸函数具有速率匹配离散化的PI共识算法的指数收敛性。为了加速PI共识算法，引入了本地预处理形式的常数正定矩阵，与其他分布式凸优化算法相比，其有效性得到了数值验证。与传统预处理不同，该预处理同时修改了梯度和共识项，从而控制了智能体之间通信图对PI共识算法的影响。

Sep, 2023

面向速率限制通道的无模型LQR控制方法

利用有限比特率的无噪声通道上的自适应量化梯度下降算法(AQGD)在模型自由控制设计和网络控制系统的交叉领域证明，在一定的比特率阈值以上，AQGD保证指数级的收敛速度，不降低指数相对未量化情况的速度，同时揭示了自适应量化在保持快速线性收敛率方面的优势，对压缩优化领域具有独立的研究价值。

Jan, 2024