通过元发现预测游戏平衡变化影响的框架
本文提出使用自动规划代理来模拟不同技能水平的人来生成游戏过程,并从中收集指标以评估当前的游戏设计并确定其潜在缺陷。本文以Scrabble和Cardonomicon为案例,展示了使用模拟代理来模拟人类玩家如何从游戏中提取度量(在Scrabble的情况下)以及突出设计缺陷(在Cardonomicon的情况下)。
Aug, 2019
通过引入因果框架来研究策略适应问题,揭示了与游戏与改进相关的一些难点,提出了分类器设计与成本函数设计必须解决非平凡因果推断问题,而过往在策略分类方案的研究实际上是具有隐性因果模型的。
Oct, 2019
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为LPG的RL算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的Atari游戏中。
Jul, 2020
探索协同学习游戏决策制定中的世界动力学和策略交互两方面,实现了一种新算法Dyna-PSRO,在部分可观察的一般和博弈中计算出的遗憾解决方案比基线算法PSRO要低,所需收集的玩家-游戏交互数据也少得多。
May, 2023
本文提出了一种基于PCGRL框架的自动平衡的方法,其架构包括三个部分:关卡生成器,平衡代理以及奖励模型仿真,并且使用新颖的基于交换的表示法,该方法能够比普通的PCGRL更好更快地教授代理修改关卡以进行平衡。
Jun, 2023
本研究提出了一个新的游戏模拟器——RaidEnv,并在其中设计了两个基准测试,以解决自动游戏平衡中的两个开放性问题,并引入了两个评估指标,为自动游戏平衡的AI提供指导,该创新性的游戏研究平台扩展了自动游戏平衡问题的前沿,并提供了一个在现实游戏生产流程中的框架。
Jul, 2023
在多智能体系统中,基于梯度的学习很困难,LOLA通过在一步优化中不同化来解决这个问题,我们通过扩展LOLA的思想并开发出一种完全通用的基于价值的优化方法,核心是一个称为元-价值的函数,它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和,我们通过训练神经网络以最小化沿优化轨迹上TD误差的方法来近似元-价值。
Jul, 2023
通过对对手知识的利用,我们提出了一种博弈论方法,即Minimax Exploiter,在竞争性自博弈的多智能体强化学习中显著提高了数据效率,并在不同环境下验证了其超越强基线的性能。
Nov, 2023
在战略游戏中应用强化学习,尤其是那些具有平衡挑战的游戏,通过模拟学习过程和噪声标签结构构建的课程学习框架,探讨神经网络在不同复杂游戏中的适应和发展过程。实证研究发现,即使带有最小的标签噪声,也会显著影响神经网络识别有效策略的能力,随着游戏复杂性的增加,这一困难将进一步加剧。因此,需要开发针对嘈杂评估所带来困难的强化学习训练的先进方法,不仅可以提高神经网络在具有平衡要素的战略游戏中的表现能力,还可以扩展强化学习系统在复杂环境中的韧性和效率。
Dec, 2023
本研究解决了PvP游戏中平衡量化的问题,开发了两种先进的衡量方法,以超越简单的胜率分析。研究成果表明,该方法有效识别了团队组合的反制关系,显著降低了传统胜值估算的计算复杂性,从而为游戏平衡评估和设计提供了新的见解。
Aug, 2024