多智能体强化学习的张量网络实现
通过使用层次相关传播,我们将联合价值函数的学习与本地奖励信号的生成分开,提出了一个新的合作多智能体增强学习算法:相关分解网络。我们发现,尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低,但 RDN 则不受影响。
Mar, 2023
提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
使用 Tensor Product Decomposition Networks(TPDNs)来近似现有向量表示,证明 RNNs 可以通过 Tensor Product Representations(TPRs)引导序列表示。
Dec, 2018
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。
Oct, 2020
本文提出了一种名为 Tesseract 的方法,通过使用低复杂度假设类准确地模拟与任务相关的代理相互作用,从而解决在多智能体强化学习中存在的行动空间过大问题,并通过 PAC 分析验证了 Tesseract-based 算法的样本效率及其适用于各种不同领域。
May, 2021
本文探讨张量网络与深度学习之间的数学联系,使用通过多尺度纠缠重整方法派生的训练算法训练二维分层张量网络完成图像识别问题,并研究了张量网络的量子特性,包括量子纠缠和保真度,并发现这些量子特性可以作为图像类别以及机器学习任务的表征。
Oct, 2017
本文提出了一种新的多智能体强化学习方法 MAGnet,将深度强化学习、自我关注机制、神经网络结构等技术应用于 Pommerman 游戏,实验结果表明,MAGnet 在该游戏中显著优于现有的 MARL 解决方案,如 DQN,MADDPG 和 MCTS 等。
Nov, 2018
本文介绍了一种使用深度循环多智能体演员 - 评论家框架(R-MADDPG)处理部分可观测设置和有限通信下多智能体协调的方法,并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明,该框架可以学习随时间变化的依赖关系,处理资源限制,并在智能体之间开发不同的通信模式。
Feb, 2020
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019