BriefGPT.xyz
Ask
alpha
关键词
partially observable general-sum games
搜索结果 - 1
协同学习经验游戏和世界模型
探索协同学习游戏决策制定中的世界动力学和策略交互两方面,实现了一种新算法 Dyna-PSRO,在部分可观察的一般和博弈中计算出的遗憾解决方案比基线算法 PSRO 要低,所需收集的玩家 - 游戏交互数据也少得多。
PDF
a year ago
Prev
Next