从有限侦察中推断实时策略游戏中的策略
本研究提出了一种新的基于学习的分层宏观策略模型,用于掌握 MOBA 游戏,包括实现宏观策略决策和微观水平执行,每个代理人可以独立做出策略决策,并通过模拟跨代理人通信机制与盟友进行通信。在评估中,我们的 5 个 AI 团队在一种流行的 5v5 MOBA 游戏中取得了 48%的胜率,这些人类玩家团队在玩家排名系统中排名前 1%。
Dec, 2018
本文介绍了一种新颖的 Hebbian 学习方法,以提取 StarCraft II 游戏单位中的点集的全局特征,并将其应用于预测点的移动,实验证明该模型比自监督学习方法具有更低的预测损失和更低的计算成本。
Jul, 2022
本文提出了一种新颖的分层强化学习模型,通过模仿学习从事宏观策略,并通过强化学习进行微观操作,以应对多人在线战斗竞技游戏 (MOBA) 中包含的大量状态空间、动作空间和隐藏信息,并且该模型在缺乏游戏引擎或 API 的情况下,还设计了一种密集的奖励函数来鼓励多个智能体合作。实验结果表明该方法能够在 MOBA 游戏中获得优异表现,如在王者荣耀 5v5 模式中成功与内置 AI 进行战斗且胜率达到 100%。
Jan, 2019
本研究提出了一个框架,用于学习顺序决策任务的可理解模型,通过时间逻辑公式表征代理策略,并使用一个嵌入方法对代理足迹进行聚类,得出在不同的聚类中解释代理策略的逻辑公式,通过编写一个特征提取器和一个可视化工具,对在 StarCraft II 中的战斗场景进行了评估,实验结果表明,本框架可以将代理足迹分为不同的行为组,并为每个行为组提供一致、有意义且易于理解的策略描述。
Aug, 2022
本研究通过应用神经虚拟自我博弈(Neural Fictitious Self-Play,NFSP)和策略梯度强化学习方法,实现了在小型 RTS 游戏上寻找纳什均衡的目标,并且通过预先使用策略梯度自我博弈来预训练模型,成功提高 NFSP 的可扩展性。
Feb, 2019
在未知环境中提出了快速任务解决的挑战,引入了两个具有挑战性的任务领域进行研究,发现深度强化学习算法无法在其中表现出色,提出了一种名为 EPN 的新模型优于深度强化学习算法.
Jun, 2020
本文提出了一种用行为策略作为可转移知识的方法进行知识转移的方法,定义了策略,并结合观察到的事件频率信息和局部序列对齐技术来提取策略,并在三种环境下得出了可行的策略,这是提取知识进行泛化和最终的转移学习的有希望的第一步。
May, 2023