大规模多智能体强化学习的浓度网络
本文提出了一种多焦点注意力网络 (Multi-focus Attention Network, MANet) 模型,通过模仿人类对低级感官输入进行空间抽象并同时关注它们的能力,将其分割成若干个部分状态后,利用并行的注意力层关注与任务有关的部分状态进行状态值估计;实验证明,MANet 在体验采样数显著减少的情况下取得了最高分,并相比 Deep Q-network 和单一注意力模型表现更好,同时在多智能体合作任务中,我们的模型比现有最先进模型的学习速度提高了 20%。
Dec, 2017
本文提出了一种基于分层图注意力网络和多智能体 actor-critic 的模型,可以进行多智能体表示学习和多智能体策略学习,通过两种特殊设计的图注意力网络促进多智能体之间的协作和竞争,实现在新任务中的策略迁移并优于其他现有方法。
Sep, 2019
该研究针对大规模多智能体系统,建立一种基于完全图的游戏抽象机制,以简化学习过程,并通过交通路口和猎物 - 捕食者两种实验验证其在状态空间和收敛性能上的优势。
Nov, 2019
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法,解决了多智能体场景下的信息筛选问题,可应用于大多数多智能体学习问题。
Oct, 2018
本文介绍了一种基于邻域的多智能体强化学习算法,并提出了两种基于超图结构的变体方法,其中利用超图卷积网络实现了信息提取和表示学习,具有实现有效合作的显著优势。
Mar, 2022
通过结合感知、规划和预测,本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法,使用基于图的实体交互表示,并利用图神经网络和注意机制进行建模。实验证明,该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习,并实现了高效的多智能体隐式协调。
Jan, 2024
混合算法 LSTM 池化和跳跃连接的注意力型离散软演员评论家 (LSA-DSAC) 用于机器人运动规划,取代了基于图的算法并改善了收敛速度。实验证明 LSA-DSAC 在训练和评估中优于最先进的方法,并在实际世界中实施和测试了物理机器人。
Sep, 2023
该研究提出了一种基于图卷积和多因素策略梯度的架构,用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题,并在一系列任务中取得了优异表现。
Apr, 2020
提出一种基于稀疏注意力机制的多智能体强化学习框架(S2RL),通过自注意力机制和稀疏注意力机制分别估算局部效用函数,再结合到中央评论家中的标准联合值函数和辅助联合值函数中,为各种方法提供了通用的升级模块,可以显著提高 StarCraft II 的众多最先进方法的性能
Jun, 2022
本研究提出了一种协作多智能体强化学习的共识学习方法,通过基于本地观察的共识学习,在分散式执行期间将推断出来的共识明确地作为智能体网络的输入,从而发展他们的合作精神,并在若干完全合作任务上获得了令人信服的结果。
Jun, 2022