Feb, 2024

竞技游戏离线虚构自我对弈

TL;DR该研究介绍了 Off-FSP,这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互,学习最佳响应以及应用离线自我对弈学习框架,并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE),在部分覆盖的真实世界数据集中,我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。