RiskQ：风险敏感的多智能体强化学习价值分解

Nov, 2023

RiskQ：风险敏感的多智能体强化学习价值分解

RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization

Siqi Shen, Chennan Ma, Chao Li, Weiquan Liu, Yongquan Fu...

TL;DR多主体系统中的风险敏感协调要求和风险测量的多主体强化学习方法。

Abstract

multi-agent systems are characterized by environmental uncertainty, varying policies of agents, and partial observability, which result in significant risks. In the context of multi-agent reinforcement learning (

multi-agent systems multi-agent reinforcement learning risk-sensitive coordination requirements risk metrics

发现论文，激发创造

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

RMIX：合作强化学习代理的风险敏感策略学习

本研究提出了一种名为 RMIX 的协作多智能体强化学习算法，使用条件风险价值（CVaR）测量个体 Q 值的学习分布，优化 CVaR 策略，并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布，提高了 StarCraft II 任务结果的协调和样本效率。

Feb, 2021

马尔可夫游戏和多智能体强化学习中的风险敏感性：一项系统综述

Markov games 和 multi-agent reinforcement learning 研究了多智能体系统中的决策制定模型。本文系统回顾了最近几年在 risk-sensitive MG 和 MARL 领域中增长的相关文献，并定义和数学描述了在 MG 和 MARL 中使用的不同风险度量，并讨论了各个度量所涵盖的文章。最后，我们识别了该领域理论和应用研究的最新趋势，并讨论了未来研究的可能方向。

Jun, 2024

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Feb, 2024

GHQ：异构协作多智体强化学习中的分组混合 Q 学习

本研究实现了一个基于 Starcraft 多智能体协作异构场景的多智能体强化学习算法 - Grouped Hybrid Q 学习 (GHQ)，通过最大化群组间的互信息来加强协调，并在原始和新的异构地图上进行实验以证明 GHQ 相对于其他最先进算法的卓越表现。

Mar, 2023

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

Qatten：一种用于协作多智能体强化学习的通用框架

本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法，并在 StarCraft 基准测试中表现出国内领先的性能。

Feb, 2020