沿途风景:视频游戏的自动探索
通过在游戏的导航网格上使用基于 Go-Explore 算法的简单启发式算法,以及并行处理器,实现了在测试游戏中发现难以察觉的到达性缺陷和全面探索复杂环境的目的,避免了需要人工演示或了解游戏动态的需求。Go-Explore 在覆盖导航网格和发现地图上的独特位置方面比包括驱动好奇心的强化学习在内的更复杂基线表现更好。
Sep, 2022
本文提出使用自动规划代理来模拟不同技能水平的人来生成游戏过程,并从中收集指标以评估当前的游戏设计并确定其潜在缺陷。本文以 Scrabble 和 Cardonomicon 为案例,展示了使用模拟代理来模拟人类玩家如何从游戏中提取度量(在 Scrabble 的情况下)以及突出设计缺陷(在 Cardonomicon 的情况下)。
Aug, 2019
该研究考虑了人工智能中尚未开发过的环境在探索方面的问题,并提出了一种从环境分布中学习策略的方法,将其作为强化学习任务来处理,以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明,该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。
Oct, 2019
本文提出了一种使用自动代理进行游戏测试的方法,该方法可以以分钟级的速度完成测试者需要数天才能完成的有机游戏。该测试方法的应用在《模拟人生移动版》中取得了积极的效果,对游戏的平衡性,奖励设置以及选项效果进行了评估和优化,从而提升了玩家体验。
Nov, 2018
本文介绍一种采用探索和模仿学习的代理程序,能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型,实现了更高效的解决文本游戏和更强的泛化能力。
Jan, 2020
本文提出了一种能够通过结合人类测试人员的经验和快速扩展随机树(RRT)的极尽全面性来高效地搜索游戏状态空间的测试方法,并称作 Cloning Assisted RRT(CA-RRT),比传统的加权 RRT 和人类演示生成的 RRT 更适用于更多的游戏地图和测试环境,表现出更高的搜索效率。
Mar, 2022
提出一种在线主动探索算法,能够高效地从数据中学习环境的抽象符号模型,并采用贝叶斯模型引导其未来的探索。通过两个计算机游戏领域的实验验证,证明该算法优于随机和贪婪的探索策略。
Sep, 2017
该研究针对文本冒险类游戏过大动作空间和奖励稀疏的问题,通过多阶段方法的策略分解,提出了 eXploit-Then-eXplore (XTX) 算法,在确定性和随机场景下要比先前优化方案提高 27%和 11%的平均标准化分数,在特定的 Zork1 游戏中,其得分高达 103 分,是之前最先进方法无法越过的瓶颈。
Jan, 2022
游戏行业面临着不断增长的需求和游戏复杂度,同时维持发布游戏的可接受质量标准的挑战。本文提出了一种基于像素状态观察的代理设计,通过演示轨迹来满足游戏测试工程师的喜好,并结合自监督和监督学习目标的模仿学习方法,显著优于现有基于像素的游戏测试代理,对复杂的开放世界环境进行探索覆盖和测试执行质量评估。
Aug, 2023
本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力,实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题,促进算法性能的提高。
Apr, 2022