DACOM：面向多智能体强化学习的时延感知沟通学习

Dec, 2022

DACOM：面向多智能体强化学习的时延感知沟通学习

DACOM: Learning Delay-Aware Communication for Multi-Agent Reinforcement Learning

Tingting Yuan, Hwei-Ming Chung, Jie Yuan, Xiaoming Fu

TL;DR本研究提出了一个针对多智能体强化学习的通信模型，通过引入TimeNet来解决通信延迟问题，从而在自动驾驶等延迟敏感型任务中提高了协作性能。

Abstract

Communication is supposed to improve multi-agent collaboration and overall performance in cooperative multi-agent reinforcement learning (MARL). However, such improvements are prevalently limited in practice since most existing communication schemes ignore communication overheads (e.g.

发现论文，激发创造

TarMAC：有目标的多智能体通信

本文提出了一种针对多智能体强化学习的有针对性通信架构，智能体在部分可见环境中执行协作任务时学习如何发送信息和将其发送给谁。该方法在没有通信监督的情况下，仅通过下游任务特定的奖励来学习定向行为。此外，我们通过多轮通信方法增强智能体之间的协调，以更好地适应不断变化的环境。我们在各种环境和任务中的测试结果证明了有针对性和多轮通信的优势，并且所学的定向通信策略可解释性和直观性。最后，我们表明我们的架构可以轻松扩展到混合和竞争环境中，从而提高性能和样本复杂性。

Oct, 2018

多智能体强化学习中通信调度的学习

本研究提出了一种名为SchedNet的多智能体强化学习框架，其中智能体能够自主学习如何安排通讯、编码消息以及根据接收到的信息选择动作，并在合作通讯与导航以及捕猎等不同应用场景下展示了比其他机制更显著的表现差距，达到32%至43%的性能优势。

Feb, 2019

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

具有时间消息控制的简洁强健多智体通信

本文介绍了一种简单且有效的方法，即‘时间消息控制’（TMC），用于在多智能体强化学习中实现简明而稳健的通信。实验表明，TMC可以在不影响准确性的情况下显著减少智能体间的通信开销，并且在易丢失网络环境中表现出比现有方法更好的鲁棒性。

Oct, 2020

多智能体强化学习与通信调查

本文介绍了多个方面可以在设计和开发多智能体强化学习系统中扮演角色的通信，并提出了 Comm-MARL 系统分析、开发和比较的几个维度。

Mar, 2022

通过智能通信渠道协调多个代理商之间的政策

本文提出了一种新的多智能体强化学习通信方式，通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现，该架构优于现有基线方法在多个合作环境中的表现。

May, 2022

AC2C: 自适应控制的双跳通信，用于多智能体强化学习

本研究提出了一种名为AC2C的自适应双跳通信协议，以应对多智能体对等协作中限制通信范围和动态通信拓扑的实际通信模型，实验结果表明，AC2C可以在降低通信成本的同时提升多智能体协作效率。

Feb, 2023

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$，且通信复杂度为 $\tilde{\mathcal{O}}(dHM^2)$。

May, 2023

多智能体强化学习的上下文感知通信

开发名为CACOM的上下文感知通信协议，通过多个阶段的粗略表示交换和注意机制，为多智能体强化学习提供了个性化的通信方案，采用学习的步长量化技术以减少通信开销，并在合作基准任务上实验结果证明CACOM在通信受限场景下提供了明显的性能提升。

Dec, 2023

通过任务不可知通信来推广多智能体协作

现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的，我们通过引入一种适用于给定环境中的任何任务的通信策略，解决了这种低效的问题。我们以一种自我监督的方式，使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略，目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下，我们证明了使用我们的潜在表示的策略必定收敛，并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务，在训练期间支持更多智能体的扩展，并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性，在未知任务中优于特定任务的通信策略。

Mar, 2024