全局状态预测的分布式多智能体强化学习

Jun, 2023

全局状态预测的分布式多智能体强化学习

Decentralized Multi-Agent Reinforcement Learning with Global State Prediction

Joshua Bloom, Pranjal Paliwal, Apratim Mukherjee, Carlo Pinciroli

TL;DR本文探讨了应用深度强化学习（Deep reinforcement learning, DRL）到机器人群体控制中的挑战，并提出了一种基于部分可观察马尔科夫决策过程（Partially Observable Markov Decision Process, POMDP）的解决方案，通过比较几个深度强化学习算法的表现，证明了全局状态预测（Global State Prediction, GSP）可以提高性能和鲁棒性。

Abstract

deep reinforcement learning (DRL) has seen remarkable success in the control of single robots. However, applying DRL to robot swarms presents significant challenges. A critical challenge is →

deep reinforcement learning robot swarms non-stationarity partially observable markov decision process global state prediction

发现论文，激发创造

群体系统的引导深度强化学习

本文研究了如何使用有限的传感能力控制一组合作智能体，使用了基于演员 - 评论家算法的深度强化学习以近似 Q 值函数和策略评估，评估了在寻找和维持距离和定位目标方面的性能。

Sep, 2017

分布式多智能体目标搜索和跟踪的高斯过程与强化学习

基于分布式高斯过程的多智能体强化学习技术能够利用深度学习的最新进展，在未知目标上规划和决策，以解决传统方法所依赖的启发式问题，并在硬件实验中展示了在无人机群组上的应用性能和可迁移性。

Aug, 2023

群体系统的深度强化学习

提出了一种基于分布的平均嵌入（mean embeddings）状态表示法，适用于具有大量同质代理的群集系统；在深度多智能体强化学习中利用神经网络方式实现的平均嵌入表示法可实现最丰富的邻近智能体信息交换，促进更复杂的集体策略的发展。

Jul, 2018

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

连续深度强化学习在分散卫星路由中的应用

这篇论文介绍了基于持续的深度强化学习的低轨卫星星座分散路由的完整解决方案，采用多智能体方法，其中每个卫星作为一个独立的决策制定智能体，通过从附近的智能体接收的反馈来获取环境的有限知识。

May, 2024

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

动态网络桥接的分布式自主群体形成

机器人系统，群体操作，网络桥接，多智能体强化学习和实际应用转化的问题和方法。

Apr, 2024

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024