使用深度强化学习启发式方法解决协作Dec-POMDP问题
QMIX是一种基于价值的方法,可以在中央化端到端方式下训练去中心化策略,其在StarCraft II微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。
Mar, 2018
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
本文旨在提出一种不受结构约束的因式分解方法QTRAN,以解决VDN和QMIX等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。
May, 2019
提出了FACMAC,一种新的协同多智能体强化学习方法,包括集中式但分解的评论家和集中式政策梯度估计器等特点,并在多智能体粒子环境,一个新的多智能体MuJoCo基准和具有挑战性的StarCraft II微管理任务上进行了评估,取得了优于MADDPG和其他基线的实证结果。
Mar, 2020
QMIX是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。
Mar, 2020
本文介绍了四种新算法:IQV,IQV-Max,QVMix和QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的MARL技术,并表明QVMix在测试环境中表现最佳,其优于其他算法的原因在于其$Q$函数的过高估计偏见相对较低。
Dec, 2020
本研究调查QMIX算法的代码级优化和单调性约束,揭示代码级优化对QMIX算法改进的显著影响,并发现在纯协作任务中,单调性约束可以提高样本效率和性能。
Feb, 2021
本文提出了一种新的多智能体价值算法,混合Q-函数(MQF),通过同时评估多种动作,改善了多智能体连续领域中基于价值的方法,促进了智能体之间的合作,并在六个合作多智能体场景中实证发现MQF通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。
Feb, 2024
我们提出了一种基于A*算法的有限时域Dec-POMDPs策略计算方法,目标是以可扩展性为代价来牺牲最优性,在较大的时域内取得竞争性性能,主要特点是使用聚类的滑动窗口内存、修剪A*搜索树以及使用新颖的A*启发式策略。我们的实验结果显示与最先进的方法相比有竞争力的性能,并且在多个基准测试中取得了更优异的表现。此外,我们还提供了一种基于A*算法的找到最优值上界的方法,适用于长时域问题。主要特点是定期揭示状态的新启发式方法,从而限制可达置信度的数量。我们的实验证明了该方法的有效性和可扩展性。
May, 2024
本研究解决了多智能体合作任务中异质智能体策略学习的挑战。提出的QTypeMix方法通过同质和异质阶段的价值分解,有效提取智能体的角色特征,并利用先进的网络结构增强表示能力。实验结果显示,QTypeMix在不同难度的任务中表现出色,达到最新的性能标准。
Aug, 2024