Jan, 2022

在多智能体强化学习中利用语义 Epsilon 贪心探索策略

TL;DR本文提出了一种名为 QMIX (SEG) 的新方法,利用值函数分解方法 QMIX 训练每个 agent 的策略以及新颖的语义 ε 贪心 (SEG) 探索策略。实验证明,SEG 通过在行动的组空间中进行探索,可以更好地促进语义探索,并已经在 StarCraft Multi-Agent Challenge(SMAC)基准测试中使 QMIX(SEG)大大优于 QMIX,接近于最先进的 MARL 方法。