ICLRFeb, 2021
RMIX:合作强化学习代理的风险敏感策略学习
RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents
Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang...
TL;DR本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务结果的协调和样本效率。