ELF Mini-RTS 上的神经虚构自我对弈

AAAIFeb, 2019

Neural Fictitious Self-Play on ELF Mini-RTS

Keigo Kawamura, Yoshimasa Tsuruoka

TL;DR本研究通过应用神经虚拟自我博弈（Neural Fictitious Self-Play，NFSP）和策略梯度强化学习方法，实现了在小型 RTS 游戏上寻找纳什均衡的目标，并且通过预先使用策略梯度自我博弈来预训练模型，成功提高 NFSP 的可扩展性。

Abstract

Despite the notable successes in video games such as Atari 2600, current AI is yet to defeat human champions in the domain of real-time strategy (RTS) games. One of the reasons is that an RTS game is a multi-agent game, in which single-agent reinforcement learning methods cannot simply

real-time strategy games multi-agent game neural fictitious self-play policy gradient reinforcement learning nash equilibria

发现论文，激发创造

不完美信息游戏中来自自我对弈的深度强化学习

本文介绍了一种可推广的终端到终端学习方法，结合了虚构自游戏和深度强化学习来学习近似 Nash 均衡。在 Leduc 扑克和真实规模的 Limit Texas Holdem 游戏中，NFSP 相比于传统强化学习方法，接近甚至超过了基于领域知识经验的超级算法。

Mar, 2016

竞技游戏离线虚构自我对弈

该研究介绍了 Off-FSP，这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互，学习最佳响应以及应用离线自我对弈学习框架，并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE)，在部分覆盖的真实世界数据集中，我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。

Feb, 2024

ELF：即时策略游戏的扩展、轻量和灵活研究平台

本文提出了一个名为 ELF 的平台，用于强化学习领域的研究。通过实验，我们展示了在该平台上进行的训练参数在 Mini-RTS 等三个实时策略游戏中的强大性能。而该平台在游戏环境和强化学习算法上的灵活性，也显示出了其可扩展性。

Jul, 2017

通过神经虚幻自我对抗解决大规模的延拓形网络安全博弈

本文提出了一种基于神经虚构自我博弈的学习方法，NSG-NFSP，来解决大规模复杂形式网络安全博弈，主要贡献包括改进最佳响应策略网络，转换平均策略网络为基于度量的分类器，加入高层次动作，以及利用 NSG 图节点嵌入信息进行学习。该算法在可伸缩性和解决方案质量方面明显优于现有的算法。

Jun, 2021

新环境下的快速任务解决

在未知环境中提出了快速任务解决的挑战，引入了两个具有挑战性的任务领域进行研究，发现深度强化学习算法无法在其中表现出色，提出了一种名为 EPN 的新模型优于深度强化学习算法.

Jun, 2020

一个在 microRTS 中夺冠的深度强化学习智能体

RAISocketAI 是第一个赢得 IEEE 微型 RTS 比赛的深度强化学习代理，其具有竞争力的表现成为未来微型 RTS 比赛的基准和深度强化学习研究的起点。通过迭代微调基本策略和传递学习到特定地图来提高 RAISocketAI 的表现，并将该策略用于经济训练未来的深度强化学习代理。使用行为克隆进行模仿学习并通过深度强化学习进行模型微调，已被证明是一种高效的引导模型具有竞争性行为的方法。

Feb, 2024

虚构交互：混合合作竞争游戏中全局纳什平衡的学习

该研究开发了一种新算法，名为 Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。

Oct, 2023

随机微分博弈的深度虚构博弈

本文提出了一种深度学习方法 —— 深度虚拟博弈，并应用于计算有限非零和随机微分博弈的纳什均衡，在每个阶段让各个博弈者优化自己的收益，用深度神经网络进行近似求解，基于虚拟博弈策略的深度学习算法具有可扩展性、并行性和模型无关性，并证明了在适当的假设下虚拟博弈收敛于开环纳什均衡。

Mar, 2019

随机微分博弈的深度虚设策略收敛

研究了一种基于深度虚假博弈算法的高效工具，来寻找大型 N 玩家随机微分博弈的马尔可夫纳什平衡，并提出了一种新的游戏解耦方法，证明了算法的收敛性，并且在理论假设之外的情况下，提出了大人口游戏的数值结果。

Aug, 2020

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020