多智能体强化学习的张量网络实现

Jan, 2024

多智能体强化学习的张量网络实现

A Tensor Network Implementation of Multi Agent Reinforcement Learning

Sunny Howard

TL;DR利用张量网络（TN）来表示多智能体增强学习（MARL）任务的预期回报，并通过优化和分解技术提高模型的表达效率。在一个土民随机漫步的示例中，通过 DMRG 技术对策略进行了正确优化，并且还演示了一种精确分解技术，将张量中的元素数量减少了 97.5%，而没有任何信息损失。

Abstract

Recently it has been shown that tensor networks (TNs) have the ability to represent the expected return of a single-agent finite Markov decision process (FMDP). The TN represents a distribution model, where all possible trajectories are considered. When extending these ideas to a

tensor networks multi-agent setting optimisation techniques decomposition techniques reinforcement learning

发现论文，激发创造

树张量网络用于生成建模

本论文介绍了一种树张量网络 (TTN)，并将其应用于基于生成式建模的自然图像数据集以提高其可解释性，在 MNIST 数据集的表现中也获得更好的对数似然度得分。

Jan, 2019

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

循环神经网络隐含地实现张量积表示

使用 Tensor Product Decomposition Networks（TPDNs）来近似现有向量表示，证明 RNNs 可以通过 Tensor Product Representations（TPRs）引导序列表示。

Dec, 2018

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

Tesseract: 多智能体加强学习中的张量化演员

本文提出了一种名为 Tesseract 的方法，通过使用低复杂度假设类准确地模拟与任务相关的代理相互作用，从而解决在多智能体强化学习中存在的行动空间过大问题，并通过 PAC 分析验证了 Tesseract-based 算法的样本效率及其适用于各种不同领域。

May, 2021

通过分层树结构的酉张量网络进行机器学习

本文探讨张量网络与深度学习之间的数学联系，使用通过多尺度纠缠重整方法派生的训练算法训练二维分层张量网络完成图像识别问题，并研究了张量网络的量子特性，包括量子纠缠和保真度，并发现这些量子特性可以作为图像类别以及机器学习任务的表征。

Oct, 2017

具备相关性图的深度多智能体强化学习

本文提出了一种新的多智能体强化学习方法 MAGnet，将深度强化学习、自我关注机制、神经网络结构等技术应用于 Pommerman 游戏，实验结果表明，MAGnet 在该游戏中显著优于现有的 MARL 解决方案，如 DQN，MADDPG 和 MCTS 等。

Nov, 2018

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019