Feb, 2022

重新审视QMIX: 通过梯度熵正则化实现区分式信用分配

TL;DR本文针对合作多智能体系统中个体信用分配问题,重新审视QMIX算法。提出一种新的信用分配度量方法,并通过实证研究表明QMIX在信用分配度量方面能力有限。引入基于QMIX的梯度熵正则化策略,以提高信用分配能力、改善机器学习性能。实验表明,我们的方法可以提高学习效率,获得更好的性能表现。