未知环境映射的异构多智能体强化学习

AAAIOct, 2020

未知环境映射的异构多智能体强化学习

Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment Mapping

Ceyer Wakilpoor, Patrick J. Martin, Carrie Rebhuhn, Amanda Vu

TL;DR本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Abstract

reinforcement learning in heterogeneous multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in homogeneous settings and simple benchmarks. In this work, we pre

reinforcement learning multi-agent scenarios decentralized control policies unmanned aerial vehicles multi-agent actor-critic architecture

发现论文，激发创造

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

异构机器人系统中的目标搜索与导航优化深度强化学习

在未知环境中设计了由无人机和无人地面车组成的异构机器人系统，通过深度强化学习算法学习的策略，该系统能够在迷宫状的矿山环境中搜索目标并导航到目标；通过引入多阶段强化学习框架和好奇心模块，促使机器人探索未访问的环境；在仿真环境中的实验证明我们的框架能够训练异构机器人系统完成未知目标位置的搜索和导航任务，而现有基线模型可能无法做到，并且加速训练速度。

Aug, 2023

通过多智能体联赛训练学习异质智能体协作

本研究提出了一种名为 Heterogeneous League Training (HLT) 的通用强化学习算法，用于解决异构多智能体问题，试验结果表明 HLT 可以提高异构团队在合作任务中的成功率，是解决策略版本迭代问题的有效途径，提供了评估异构团队中每个角色难度的实际方法。

Nov, 2022

具有状态的主动协调器：协作多智能体强化学习中的协调和环境异质性

本研究提出了一个多智能体协作系统，使用 HE COGrid 评估了不同 MARL 方法的表现，并通过 SAF 的中心化训练去集中协调，并在不同环境异构性的情况下执行，得出了 SAF 在不同的任务和协调水平下总是表现出色相比于其他方法。

Oct, 2022

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

多视角环境下深度强化学习的演员 - 评论家 - 注意力机制

本文提出了一种基于深度强化学习和注意力机制的多视角环境下的模型，能够学习一个能够根据每个视角的重要性来动态决策的策略，实验结果表明在各种复杂环境中都表现出色。

Jul, 2019