协作多智能体强化学习中的信号指导协调
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。
Jul, 2021
提出了基于LTDE-Neural-AC和演员-评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本研究采用集中式训练和分散式执行的范式来评估多智能体强化学习模型的推广和转移能力,结果表明通过使用更少的智能体进行训练可以获得类似或更高的评估性能。
Nov, 2021
本文提出了一种新的多智能体强化学习通信方式,通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现,该架构优于现有基线方法在多个合作环境中的表现。
May, 2022
该研究提出了一种新的训练方法,该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作,随着训练的进行,逐渐过渡到完全去中心化的执行模式,实验结果表明该方法的性能不逊于基于传统通信的方法。
Apr, 2023
本文介绍了一种名为CADP(Centralized Advising and Decentralized Pruning)的框架,解决了现有的CTDE框架无法充分利用全局信息的问题,在保证了各个智能体独立策略的同时,通过启用显式的通信渠道,实现了智能体之间的有效信息交流与更加集中的训练,最终在StarCraft II和Google Research Football等基准测试中取得了优秀的性能表现。
May, 2023
通过引入局部集中式团队变换器 (LCTT) 方法,本研究解决了多智能体强化学习中的冗余计算问题,并提出了团队变换器架构 (T-Trans) 和领导权转换机制,实现了更加高效的学习收敛,同时无损于奖励水平。
Apr, 2024