Oct, 2019

MAVEN: 多智能体变分探索

TL;DR本文提出一种名为MAVEN的新方法,该方法结合了价值和基于策略的方法,引入了层次控制的潜在空间来解决QMIX和类似方法中的行动值表示约束引起的探索不足和次优现象。MAVEN可以实现承诺和延时探索,在具有挑战性的SMAC动态负载均衡问题上取得了显着的性能提升,是一种解决复杂多智能体任务的重要方法。