Aug, 2023

走向小样本协同:重新审视《汉尼拔》游戏中的即兴团队配合挑战

TL;DR合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏Hanabi的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对Hanabi代理的适应性具有重要影响。