Mar, 2020

零样本协调的“其他-玩耍

TL;DR本文探讨了如何通过使用other-play算法增强self-play算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以Hanabi卡牌游戏为例展示了该算法的实验结果。