基于方差控制的多智能体强化学习高效通信
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
本文介绍了一种简单且有效的方法,即‘时间消息控制’(TMC),用于在多智能体强化学习中实现简明而稳健的通信。实验表明,TMC可以在不影响准确性的情况下显著减少智能体间的通信开销,并且在易丢失网络环境中表现出比现有方法更好的鲁棒性。
Oct, 2020
本文提出了一种新的多智能体强化学习通信方式,通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现,该架构优于现有基线方法在多个合作环境中的表现。
May, 2022
本研究提出了一种名为AC2C的自适应双跳通信协议,以应对多智能体对等协作中限制通信范围和动态通信拓扑的实际通信模型,实验结果表明,AC2C可以在降低通信成本的同时提升多智能体协作效率。
Feb, 2023
在多智能体强化学习中,当智能体无法观察到完整的环境状态时,沟通是至关重要的。借助可微分的通信渠道允许梯度在智能体之间流动作为一种反馈的最常见方法;然而,当我们想要使用离散消息来减小消息大小时,这种方法面临挑战,因为梯度无法通过离散通信渠道传递。本文比较了几种最先进的离散化方法和一种新方法,并将比较应用于基于梯度的沟通学习,并在多个环境中进行了测试。此外,本文还提出了一种基于DIAL和COMA的沟通学习方法COMA-DIAL,该方法通过学习率缩放和适应性探索进行了扩展,使我们能够在更复杂的环境中进行实验。实验结果表明,本文提出的新方法ST-DRU在各种环境中都取得了最佳结果,每个实验中的表现最好或接近最佳,并且是唯一一个在任何测试环境中都没有失败的方法。
Aug, 2023
开发名为CACOM的上下文感知通信协议,通过多个阶段的粗略表示交换和注意机制,为多智能体强化学习提供了个性化的通信方案,采用学习的步长量化技术以减少通信开销,并在合作基准任务上实验结果证明CACOM在通信受限场景下提供了明显的性能提升。
Dec, 2023
现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的,我们通过引入一种适用于给定环境中的任何任务的通信策略,解决了这种低效的问题。我们以一种自我监督的方式,使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略,目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下,我们证明了使用我们的潜在表示的策略必定收敛,并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务,在训练期间支持更多智能体的扩展,并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性,在未知任务中优于特定任务的通信策略。
Mar, 2024
在完全分散的多智能体强化学习(MARL)的演员-评论家框架中,MARL策略评估(PE)问题是其中的一个关键组件,其中一组N个智能体通过与邻居通信合作评估给定策略下的全局状态的值函数。本文首次尝试回答一个有趣的开放问题:本地TD更新方法是否能够降低样本复杂性和通信复杂性。我们的理论和实验结果证实了允许执行多个本地TD更新步骤确实是降低MARL-PE的样本复杂性和通信复杂性的有效方法。
Mar, 2024