Feb, 2024

混合 Q- 函数:用于连续动作领域的合作 MARL 中推进基于价值的方法

TL;DR本文提出了一种新的多智能体价值算法,混合Q-函数(MQF),通过同时评估多种动作,改善了多智能体连续领域中基于价值的方法,促进了智能体之间的合作,并在六个合作多智能体场景中实证发现MQF通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。