通过局部集中执行减少多智能体协调中的冗余计算
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。
Jul, 2021
提出了基于LTDE-Neural-AC和演员-评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本研究采用集中式训练和分散式执行的范式来评估多智能体强化学习模型的推广和转移能力,结果表明通过使用更少的智能体进行训练可以获得类似或更高的评估性能。
Nov, 2021
本文提出了TransfQMix,一种用于多智能体强化学习(MARL)中更好地学习协作策略的新方法,将协作问题表示为潜在图结构的顶点特征,使用transformer代理进行图推理。文章介绍了该方法的设计,性能以及在Spread和StarCraft II环境中的比较结果
Jan, 2023
本文介绍了一种名为CADP(Centralized Advising and Decentralized Pruning)的框架,解决了现有的CTDE框架无法充分利用全局信息的问题,在保证了各个智能体独立策略的同时,通过启用显式的通信渠道,实现了智能体之间的有效信息交流与更加集中的训练,最终在StarCraft II和Google Research Football等基准测试中取得了优秀的性能表现。
May, 2023
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024