May, 2023

协同学习经验游戏和世界模型

TL;DR探索协同学习游戏决策制定中的世界动力学和策略交互两方面,实现了一种新算法 Dyna-PSRO,在部分可观察的一般和博弈中计算出的遗憾解决方案比基线算法 PSRO 要低,所需收集的玩家 - 游戏交互数据也少得多。