通过智能通信渠道协调多个代理商之间的政策
本文提出了一个基于深度确定性策略梯度的多智能体训练框架,利用存储设备并发端到端学习明确的通信协议,来提高小规模系统中智能体的协作和性能,同时研究了不同通信模式对性能的影响。
Jan, 2019
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
提出了 Individually Inferred Communication 模型,通过因果推断学习通信先验,并利用前馈神经网络实现代理之间的通信。该模型成功地减少了通信开销并提高了多种多代理合作场景中的表现。
Jun, 2020
该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员-评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。
Feb, 2022
开发名为CACOM的上下文感知通信协议,通过多个阶段的粗略表示交换和注意机制,为多智能体强化学习提供了个性化的通信方案,采用学习的步长量化技术以减少通信开销,并在合作基准任务上实验结果证明CACOM在通信受限场景下提供了明显的性能提升。
Dec, 2023
现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的,我们通过引入一种适用于给定环境中的任何任务的通信策略,解决了这种低效的问题。我们以一种自我监督的方式,使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略,目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下,我们证明了使用我们的潜在表示的策略必定收敛,并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务,在训练期间支持更多智能体的扩展,并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性,在未知任务中优于特定任务的通信策略。
Mar, 2024