基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

MMNov, 2023

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance

PDF

Sizhao Li, Yuming Xiang, Rongpeng Li, Zhifeng Zhao, Honggang Zhang

TL;DR本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Abstract

multi-robot system (MRS) has garnered widespread research interest and fostered tremendous interesting applications, especially in cooperative control fields. Yet little light has been shed on the compound ability of fo

multi-robot system formation monitoring defence decentralized

发现论文，激发创造

基于深度强化学习的多智能体通信与协作决策研究

本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

May, 2023

结合启发式和多智体强化学习的多机器人路径规划

提出了一种结合启发式搜索、经验法则和多智能体强化学习的路径规划方法 MAPPOHR，将启发式搜索用于生成全局路径，用经验法则和奖励函数激励实时规划器，用多智能体强化学习算法实现实时规划，实验证明该方法比传统学习和启发式方法的规划性能更好且学习效率更高。

Jun, 2023

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

我们开发了一种多智能体强化学习算法，通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策，以最小化多个多基站多小区网络的总能耗，同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP)，以实现个别基站之间的协作，以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性，进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明，训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言，与自动休眠模式 1 (符号级睡眠) 算法相比，MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗，在高流量小时内提高了约 19% 的能源效率。

Feb, 2024

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

多智能体强化学习在海上操作技术网络安全中的应用

该论文展示了自主网络防御在工业控制系统中的潜力，并提供了一个基线环境，进一步探索多智能体强化学习在此问题领域的应用。

Jan, 2024

基于改进近端策略优化的机械臂关节空间障碍物避免

该研究提出一种新的基于邻近策略优化（PPO）的无模型强化学习方法，用于训练深度策略将任务空间映射到 6-DoF 机械臂的关节空间，用于解决机器人在随机目标和障碍物下进行的触及任务困难的问题。

Oct, 2022

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

DD-PPO：利用 25 亿帧学习接近完美的目标点导航

介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法，用于在资源密集型模拟环境中训练虚拟机器人进行导航，实现了近乎线性的扩展，通过训练并转移场景理解和导航策略，方法实现了身体智能上的图像预训练加特定任务微调。

Nov, 2019

部分可观察马尔科夫博弈中多目标自组织追捕问题研究

该研究提出了一个基于多代理系统的分布式自组织搜索和追踪框架，其中智能代理协同追踪多个动态目标。使用模糊自组织协同共进化（FSC2）算法解决了多目标自组织搜索（SOS）、分布式任务分配和分布式单目标追踪三个方面的挑战。实验表明，该框架可以有效处理具有内在部分观测和分布式决策制定的问题，实现高达近 100％的成功捕获率。

Jun, 2022