eQMARL: 量子通道上分布式协作的纠缠量子多智能体强化学习

May, 2024

eQMARL: 量子通道上分布式协作的纠缠量子多智能体强化学习

eQMARL: Entangled Quantum Multi-Agent Reinforcement Learning for Distributed Cooperation over Quantum Channels

Alexander DeRieux, Walid Saad

TL;DR提出了一种名为 eQMARL 的新型框架，通过量子通道促进协作，并通过量子纠缠的分裂评论家消除本地观察共享，实验结果表明，eQMARL 相较于传统的分裂和完全中心化的经典和量子基线，能够在更短的时间内收敛到合作策略，且拥有更高的整体分数，与传统的分裂经典基线相比，eQMARL 只需要少于 25 倍的中心化参数。

Abstract

Collaboration is a key challenge in distributed multi-agent reinforcement learning (MARL) environments. Learning frameworks for these decentralized systems must weigh the benefits of explicit player coordination against the communication overhead and computational cost of sharing local observations and environmental data. →

distributed multi-agent reinforcement learning quantum computing entangled qmarl cooperation quantum entanglement

发现论文，激发创造

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

通过奖励归因分解进行多智能体协作

本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法，它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色，尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项，并在无需重新训练 / 微调的情况下，显著提高 SoTA 超过 30%。

Oct, 2020

量子多机器人强化学习的软件模拟与可视化

本文介绍了一种新型的基于量子机器学习的自主多无人机控制框架 - 量子多无人机强化学习框架，并在该框架下经过充分的训练和分析，实现了合理的回报收敛和服务质量表现，具有更稳定的训练结果及优秀的训练过程分析功能。

Nov, 2022

量子多智能体元强化学习

本文提出 QM2ARL，利用量子神经网络的两个不同维度的参数来重新设计 MARL，实现了元学习和记忆地址功能，并通过模拟验证了其在高回报和快速收敛方面的有效性。

Aug, 2022

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了 Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的 MARL 基线。

Nov, 2021

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

Qatten：一种用于协作多智能体强化学习的通用框架

本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法，并在 StarCraft 基准测试中表现出国内领先的性能。

Feb, 2020

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

零和马尔可夫博弈的分散式 Q 学习

本研究在非协调控制下，针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态，该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点，并且可以有效应对非固定环境的挑战。

Jun, 2021

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020