基于 Transformer 的邮件机制，用于多智能体强化学习的可扩展通信

Jan, 2023

基于 Transformer 的邮件机制，用于多智能体强化学习的可扩展通信

Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism

Xudong Guo, Daming Shi, Wenhui Fan

TL;DR本文提出了一种基于 Transformer 机制的 TEM 框架，通过邮件机制改进了多智能体强化学习中局部通信的问题，同时保证了模型的可伸缩性和对不可见智能体的合作能力，实验证明 TEM 在多项合作场景下都比其他模型表现更优越.

Abstract

communication can impressively improve cooperation in multi-agent reinforcement learning (MARL), especially for partially-observed tasks. However, existing works either broadcast the messages leading to information redundancy, or learn targeted →

multi-agent reinforcement learning communication tem transformer scalability

发现论文，激发创造

多智能体强化学习与通信调查

本文介绍了多个方面可以在设计和开发多智能体强化学习系统中扮演角色的通信，并提出了 Comm-MARL 系统分析、开发和比较的几个维度。

Mar, 2022

通过任务不可知通信来推广多智能体协作

现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的，我们通过引入一种适用于给定环境中的任何任务的通信策略，解决了这种低效的问题。我们以一种自我监督的方式，使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略，目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下，我们证明了使用我们的潜在表示的策略必定收敛，并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务，在训练期间支持更多智能体的扩展，并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性，在未知任务中优于特定任务的通信策略。

Mar, 2024

基于表征通信的大规模交通信号控制的多智能体强化学习

基于通信的多智能体强化学习（MARL）框架用于大规模交通信号控制，每个智能体学习通信策略以选择消息的发送对象和交换可变长度的消息，实现去中心化和灵活的通信机制，并在网络拥塞和性能方面表现优于相关方法。

Oct, 2023

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

多智能体强化学习的上下文感知通信

开发名为 CACOM 的上下文感知通信协议，通过多个阶段的粗略表示交换和注意机制，为多智能体强化学习提供了个性化的通信方案，采用学习的步长量化技术以减少通信开销，并在合作基准任务上实验结果证明 CACOM 在通信受限场景下提供了明显的性能提升。

Dec, 2023

通过智能通信渠道协调多个代理商之间的政策

本文提出了一种新的多智能体强化学习通信方式，通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现，该架构优于现有基线方法在多个合作环境中的表现。

May, 2022

多智能体强化学习中的完全独立通信

研究对多智能体强化学习的通信方法进行了调查，发现独立学习者在不共享参数的情况下仍然可以学习通信策略，并观察到通信在不同网络容量下的影响。

Jan, 2024

可靠地通过转移赋权的社交内在动机对伴侣的行动做出反应

本文介绍了一种名为 transfer empowerment 的方法，它可以通过度量一个智能体对另一个智能体的行为的潜在影响来改进多智能体协作的过程，从而使训练出的多智能体策略更加具有反应性和鲁棒性。实验结果表明，transfer empowerment 可以有效提高多智能体强化学习的性能。

Mar, 2022

基于多智能体强化学习的连续通信消息编码技术的可扩展性

通过多智能体加强学习技术学习通讯协议和行动协议，智能体们能够决定共享哪些信息，并通过文中的实验证明，智能体们使用平均信息编码器，并结合指数和对数函数的组合来避免应用平均信息编码器后的重要信息丢失。

Aug, 2023