我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023
研究了在未知环境下的决策问题,使用分布式多智能体强化学习和条件风险价值的方法进行决策,并通过模拟评估验证了该方法。
Apr, 2023
本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务结果的协调和样本效率。
Feb, 2021
Markov games 和 multi-agent reinforcement learning 研究了多智能体系统中的决策制定模型。本文系统回顾了最近几年在 risk-sensitive MG 和 MARL 领域中增长的相关文献,并定义和数学描述了在 MG 和 MARL 中使用的不同风险度量,并讨论了各个度量所涵盖的文章。最后,我们识别了该领域理论和应用研究的最新趋势,并讨论了未来研究的可能方向。
Jun, 2024
提出了 QR-MIX 模型,通过引入分位数回归来建模联合状态行动值分布,结合 QMIX 和隐式分位数网络,提高了随机性和单调性的容忍度,优于 QMIX。
Sep, 2020
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同,具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。
Feb, 2024
本研究实现了一个基于 Starcraft 多智能体协作异构场景的多智能体强化学习算法 - Grouped Hybrid Q 学习 (GHQ),通过最大化群组间的互信息来加强协调,并在原始和新的异构地图上进行实验以证明 GHQ 相对于其他最先进算法的卓越表现。
Mar, 2023
本研究提出分布式价值函数分解(DFAC)框架,将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题,实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020