基于回声状态网络的多智体强化学习及其在行人动态中的应用

Dec, 2023

基于回声状态网络的多智体强化学习及其在行人动态中的应用

Multi-agent reinforcement learning using echo-state network and its application to pedestrian dynamics

Hisato Komatsu

TL;DR近年来，研究了使用多智能体强化学习（MARL）进行行人模拟。该研究考虑了在一个网格世界环境中的道路，并使用回声状态网络和最小二乘策略迭代方法将行人实现为 MARL 智能体。在这个环境下，探究了这些智能体通过避开其他智能体学会向前移动的能力。具体来说，研究了两种类型的任务：在狭窄的直行路线和宽阔的绕行路线之间进行选择，以及走廊中的双向行人流动。模拟结果表明，当智能体的密度不是很高时，学习是成功的。

Abstract

In recent years, simulations of pedestrians using the multi-agent reinforcement learning (marl) have been studied. This study considered the roads on a grid-world environment, and implemented pedestrians as

simulations of pedestrians multi-agent reinforcement learning marl echo-state network least squares policy iteration method

发现论文，激发创造

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

结构化状态抽象协作多智能体导航学习

本研究提出了一个神经网络架构，旨在共同学习多个代理参与导航任务中的自适应状态空间抽象和通信协议，从而有效减少探索的状态空间的大小，并达到更好的政策性能。

Jun, 2023

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

多机器人社交感知协作规划在行人环境中的多智能体强化学习

本文提出了一种基于离线多智能体强化学习（MARL）的多机器人社交感知和高效协同规划方法，使用时间 - 空间图（TSG）进行社交编码，引入 K 步先见奖励设置，并改进了传统的集中式批判者网络，从而在多群组实验中验证了该方法的有效性。

Nov, 2022

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

多智能体深度强化学习用于大规模交通信号控制

本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法，以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度，并在大型合成交通网格和摩纳哥城的大型实际交通网络下，通过模拟高峰流量动态，并将其与独立 A2C 和独立 Q-learning 算法进行比较，结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。

Mar, 2019