大规模多智能体系统的分解 Q 学习
该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法,通过使用混合网络聚合分散的 Q 函数,实现了集中式学习,并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验,表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。
Oct, 2023
本文旨在提出一种不受结构约束的因式分解方法 QTRAN,以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN 优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。
May, 2019
QMIX 是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。
Mar, 2020
本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中,通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求,提出了一种高效的算法,以在所有相关问题参数的多项式计算和查询复杂度内实现计划。
Feb, 2023
本文探讨了如何在多智能体环境下,运用扩展后的 Deep Q-Learning Network,使两个由独立的 Deep Q-Networks 控制的 agents,相互作用以玩经典的电子游戏乒乓球,以及通过改变 Pong 经典奖励方案,演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。
Nov, 2015
QMIX 是一种基于价值的方法,可以在中央化端到端方式下训练去中心化策略,其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。
Mar, 2018
该论文提出了一种新的学习范式,即分解学习控制策略使其在实现多个动作时只需要执行一个动作,从而取得了显著的性能提升,特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。
May, 2017
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
Jun, 2024
在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制问题上,这些方法在减少时间的同时仍能实现接近最优的平均回报。
May, 2024
本文提出一种基于 Q-DPP 的多智能体 Q 学习方法,用于解决分布式合作任务中的中心化训练和分散执行,消除了限制性假设,并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。
Jun, 2020