ICMLOct, 2021

离散化正则化的多智能体演员 - 评论家算法

TL;DR本文研究了分歧规则化在合作多智能体强化学习中的应用,提出了一种新的脱机分歧规则化多智能体演员 - 评论家框架 (DMAC),理论上证明了 DMAC 更新规则是自然的脱机更新,并在原始 MDP 和分歧正则化 MDP 中保证单调政策改进和收敛,实验证明 DMAC 明显提高了现有 MARL 算法的性能。