ICLRFeb, 2021

RMIX:合作强化学习代理的风险敏感策略学习

TL;DR本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务结果的协调和样本效率。