分散式多智能体导航的环境和政策协同优化

Mar, 2024

分散式多智能体导航的环境和政策协同优化

Co-Optimization of Environment and Policies for Decentralized Multi-Agent Navigation

Zhan Gao, Guang Yang, Amanda Prorok

TL;DR通过引入多智能体系统和环境协同演化的观点，本研究提出了一个多智能体导航的去中心化问题，通过协同算法交替优化智能体行为和环境配置，选择最优的智能体动作和障碍物配置，以提高导航性能。通过策略梯度方法，在协同框架中建立了无模型学习机制，并进行了收敛性分析和对比实验，结果显示优化的环境配置对解决智能体运动冲突至关重要。

Abstract

This work views the multi-agent system and its surrounding environment as a co-evolving system, where the behavior of one affects the other. The goal is to take both agent actions and environment configurations as decision variables, and optimize these two components in a coordinated m

multi-agent system agent-environment co-optimization decentralized multi-agent navigation obstacle configurations policy gradient

发现论文，激发创造

基于优先级的多智能体导航的受限环境优化

本文考虑将环境视为一个系统级优化问题的决策变量，通过提出未排序和排序环境优化问题，分别考虑了代理人优先级与偏见。该文利用强化学习和原始对偶机制开发出了无模型解决方案，以处理约束条件，进一步阐释了环境与绩效之间的关系。数值结果证明了该方法的有效性和适应性。

May, 2023

通过双层优化的去中心化非合作机器人社交导航

本文提出了一种全面去中心化的方法，用于社交小游戏中的实时非合作多机器人导航，使用新的实时双层优化算法来规划基于优先顺序的最优轨迹，并证明了该算法的有效性。

Jun, 2023

目标导航探索的复杂性

通过构建依赖图和分析随机漫步的击中时间，我们设计出了一类逃脱房间环境，评估了不同种类的奖励方法和分层策略对于智能体探索能力的影响，并表明超过某个复杂度的环境需要采用分层方法。

Nov, 2018

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

在真实环境中使用混合策略进行多目标导航

我们提出了一种混合导航方法，将多对象导航（Multi-ON）任务分解为两个不同的技能：（1）使用经典 SLAM 和符号规划器处理航路点导航，而（2）使用结合监督学习和强化学习训练的深度神经网络处理探索、语义建图和目标检索，我们展示了该方法在模拟和真实环境中相对于端到端方法的优势，并超越了该任务的最先进技术。

Jan, 2024

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

MUI-TARE：未知初始位置的多智能体合作探索

通过基于 lidar 的多智能体探测，结合自适应和协作式规划，对子图合并的鲁棒性和探测效率进行智能平衡，提高了环境探测效率 50% 以上。

Sep, 2022

融合自我定位以实现更真实的点 - 目导航智能体

本文介绍了一种基于视觉位移估计和任务特定导航策略的点目标导航代理，该代理可适应嘈杂的传感器和动作动态，并在 CVPR 2020 Habitat Challenge 的 PointNav 跟踪中获得亚军。

Sep, 2020

ALAN: 多智能体导航的自适应学习

本论文提出了一个名为 ALAN 的新方法，用于多智能体导航，通过将该问题转化为动作选择问题，允许智能体根据本地条件动态调整它们的行为以实现时间高效和无碰撞的移动，相对于现有方法，该方法在拥挤的空间中实现更高效的全局行为。

Oct, 2017

学习在复杂环境中导航

利用增强学习问题和多模态感应输入的辅助深度预测和循环闭环分类任务，可以学习从复杂 3D 迷宫中进行导航并接近人类级别表现

Nov, 2016