Oct, 2023

虚构交互:混合合作竞争游戏中全局纳什平衡的学习

TL;DR该研究开发了一种新算法,名为 Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。