基于 Transformer 的邮件机制,用于多智能体强化学习的可扩展通信
现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的,我们通过引入一种适用于给定环境中的任何任务的通信策略,解决了这种低效的问题。我们以一种自我监督的方式,使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略,目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下,我们证明了使用我们的潜在表示的策略必定收敛,并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务,在训练期间支持更多智能体的扩展,并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性,在未知任务中优于特定任务的通信策略。
Mar, 2024
基于通信的多智能体强化学习(MARL)框架用于大规模交通信号控制,每个智能体学习通信策略以选择消息的发送对象和交换可变长度的消息,实现去中心化和灵活的通信机制,并在网络拥塞和性能方面表现优于相关方法。
Oct, 2023
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
本文提出了一种名为 MAMBA 的新方法,通过利用基于模型的强化学习(MBRL)进一步利用合作环境中的集中式训练,从而使代理之间的通信足以在执行阶段维持每个代理的世界模型,而虚拟推演可用于培训,从而通过减少与环境的互动次数,以与 Model-Free 的现有方法相比,在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。
May, 2022
开发名为 CACOM 的上下文感知通信协议,通过多个阶段的粗略表示交换和注意机制,为多智能体强化学习提供了个性化的通信方案,采用学习的步长量化技术以减少通信开销,并在合作基准任务上实验结果证明 CACOM 在通信受限场景下提供了明显的性能提升。
Dec, 2023
本文提出了一种新的多智能体强化学习通信方式,通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现,该架构优于现有基线方法在多个合作环境中的表现。
May, 2022
本文介绍了一种名为 transfer empowerment 的方法,它可以通过度量一个智能体对另一个智能体的行为的潜在影响来改进多智能体协作的过程,从而使训练出的多智能体策略更加具有反应性和鲁棒性。实验结果表明,transfer empowerment 可以有效提高多智能体强化学习的性能。
Mar, 2022
通过多智能体加强学习技术学习通讯协议和行动协议,智能体们能够决定共享哪些信息,并通过文中的实验证明,智能体们使用平均信息编码器,并结合指数和对数函数的组合来避免应用平均信息编码器后的重要信息丢失。
Aug, 2023