大规模多智能体系统的分解 Q 学习

Sep, 2018

大规模多智能体系统的分解 Q 学习

Factorized Q-Learning for Large-Scale Multi-Agent Systems

Ming Zhou, Yong Chen, Ying Wen, Yaodong Yang, Yufeng Su...

TL;DR本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题，提出将 Q 函数近似为分解成对交互的高阶高维张量，并利用复合深度神经网络实现计算，借此简化模型，加快学习过程，通过在多个场景上的实验得出，该方法表现良好。

Abstract

Deep q-learning has achieved significant success in single-agent decision making tasks. However, it is challenging to extend q-learning to large-scale →

multi-agent scenarios q-learning deep neural network factorized pairwise interactions coordinate descent type algorithm

发现论文，激发创造

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023

QTRAN：基于变换因式分解的合作多智能体强化学习算法

本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

May, 2019

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

组合动作空间中的高效规划及其在合作多智能体强化学习中的应用

本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中，通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求，提出了一种高效的算法，以在所有相关问题参数的多项式计算和查询复杂度内实现计划。

Feb, 2023

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017

多智能体深度网络下的多样化 Q - 向量强化学习

本论文扩展了之前的研究，提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络（DQN）算法，并在双机械臂合作举起锅的环境中展示了这种方法的有效性。

Jun, 2024

大规模离散动作空间的随机 Q 学习

在复杂环境中，使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中，传统的基于值的强化学习方法存在计算负担，本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法，并通过理论证明和实证验证表明，在不同控制问题上，这些方法在减少时间的同时仍能实现接近最优的平均回报。

May, 2024

多智能体特征行列式 Q 学习

本文提出一种基于 Q-DPP 的多智能体 Q 学习方法，用于解决分布式合作任务中的中心化训练和分散执行，消除了限制性假设，并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。

Jun, 2020