ICMLMar, 2021

作为终身学习现实场景的持续协调

TL;DR本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台,研究了最新的多智能体强化学习算法,对限制的内存和计算权衡性能以及对超量训练预测的影响,证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。