多智能体强化学习与通信调查
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文提出基于方差控制的多智能体强化学习技术(Variance Based Control,VBC),通过控制不同agent之间交流的消息方差来提高通信效率,可使agent利用有用信息,减少噪音影响,从而在StarCraft II游戏中实现更好的合作策略和低延迟通信。
Sep, 2019
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
本文介绍了一种简单且有效的方法,即‘时间消息控制’(TMC),用于在多智能体强化学习中实现简明而稳健的通信。实验表明,TMC可以在不影响准确性的情况下显著减少智能体间的通信开销,并且在易丢失网络环境中表现出比现有方法更好的鲁棒性。
Oct, 2020
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
本文提出了一种新的多智能体强化学习通信方式,通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现,该架构优于现有基线方法在多个合作环境中的表现。
May, 2022
本研究提出了一种名为AC2C的自适应双跳通信协议,以应对多智能体对等协作中限制通信范围和动态通信拓扑的实际通信模型,实验结果表明,AC2C可以在降低通信成本的同时提升多智能体协作效率。
Feb, 2023
开发名为CACOM的上下文感知通信协议,通过多个阶段的粗略表示交换和注意机制,为多智能体强化学习提供了个性化的通信方案,采用学习的步长量化技术以减少通信开销,并在合作基准任务上实验结果证明CACOM在通信受限场景下提供了明显的性能提升。
Dec, 2023
现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的,我们通过引入一种适用于给定环境中的任何任务的通信策略,解决了这种低效的问题。我们以一种自我监督的方式,使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略,目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下,我们证明了使用我们的潜在表示的策略必定收敛,并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务,在训练期间支持更多智能体的扩展,并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性,在未知任务中优于特定任务的通信策略。
Mar, 2024