基于 LLM 的文本游戏自动错误检测

ACLJun, 2024

基于 LLM 的文本游戏自动错误检测

Automatic Bug Detection in LLM-Powered Text-Based Games Using LLMs

Claire Jin, Sudha Rao, Xiangyu Peng, Portia Botchway, Jessica Quaye...

TL;DR通过基于大型语言模型的方法，我们提出了一种自动识别互动游戏中逻辑和设计缺陷的系统化方法，该方法应用于文本游戏 DejaBoom! 上能够高效地识别大型语言模型驱动的互动游戏中的缺陷，并填补了自动检测逻辑和设计缺陷的空白。

Abstract

Advancements in large language models (LLMs) are revolutionizing interactive game design, enabling dynamic plotlines and interactions between players and non-player characters (NPCs). However, LLMs may exhibit flaws such as hallucinations, forgetfulness, or misinterpretations of prompt

large language models interactive game design bug detection logic and design flaws llm-based method

发现论文，激发创造

在游戏开发中利用大型语言模型进行高效的故障分析

这篇论文提出了一种利用大型语言模型（LLMs）自动识别导致测试失败的代码更改的新方法，并通过定量和定性评估验证了该方法的有效性。通过 EA 开发者报告的问题进行的数据集评估结果显示，我们的方法在准确率上达到了 71％。此外，通过用户研究对我们的模型进行了评估，结果显示在开发者的视角下使用该工具可以显著减少问题调查所需的时间，最高可达 60％。

Jun, 2024

LLM 驱动的游戏叙事中的玩家驱动新生

通过与大型语言模型的互动，玩家能够参与游戏叙事的演化，发现有趣且具有吸引力的新节点，进而创造出非原始叙事中不存在的内容。

Apr, 2024

通过 LLMs 进行游戏生成：视频游戏描述语言的研究

近期，大型语言模型的出现为过程性内容生成带来了新的机遇。这篇论文探讨了通过大型语言模型生成游戏的可能性，提出了一种基于视频游戏描述语言的大型语言模型框架，可以同时生成游戏规则和关卡。实验结果展示了这个框架如何根据不同的上下文进行生成，为过程性内容生成领域中的新游戏生成提供了新的见解。

Apr, 2024

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

使用 LSTM 网络自动检测游戏中的错误

我们提出了一个新的框架，使用长短期记忆（LSTM）网络来检测感知缺陷，将视频游戏中的缺陷检测为异常，并通过聚类来确定发生的缺陷类别。该框架在两个第一人称射击游戏上进行了评估，结果显示了框架的有效性。

Dec, 2023

解密数字侦探：了解多智能体谜题游戏中的 LLM 行为与能力

通过应用大型语言模型（LLMs）在中国的谋杀迷题角色扮演游戏 “Jubensha” 中，我们提出了第一个专为 Jubensha 设计的中文数据集，旨在促进该复杂叙事环境下 AI 智能体的发展。本研究还介绍了一种基于 LLMs 的独特多智能体交互框架，使得这些 AI 智能体能够自主参与游戏，增强 Jubensha 游戏的动态性。为了评估这些 AI 智能体的表现，我们开发了专门针对他们对案件信息和推理能力的精研方法。此外，我们还融合了最新的上下文学习技术，以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解 LLM 能力的新视角，并建立一个评估基于大型语言模型的智能体的新基准。

Dec, 2023

AutoAttacker：一种基于大型语言模型指导的自动化网络攻击系统

使用大型语言模型（LLMs）在网络安全中模拟后入侵阶段的攻击，通过将 LLMs 自动化来改善组织的网络安全状况，扩展红队的效力并预先检测新型攻击行为。

Mar, 2024

大型语言模型生成游戏关卡

本文探讨了使用大型语言模型 (LLMs) 生成 Sokoban 游戏关卡的可行性及效果，发现 LLMs 能够生成关卡，且其性能随数据集规模的提高而显著提高。同时，文章也介绍了控制 LLMs 关卡生成器的初步实验结果，并探讨了未来研究的有 promising 的方向。

Feb, 2023

大型语言模型是相当不错的零样本视频游戏缺陷检测器

本研究探讨了利用大型语言模型的零样本能力来进行视频游戏中漏洞检测的可能性，并将漏洞检测问题表述为问答任务。我们介绍了 GameBugDescriptions 基准数据集，展示了六个模型在该数据集上的表现。结果表明，使用适当的提示技术，我们可以在某些游戏中实现高达 78.94％的准确度，为视频游戏漏洞检测提供了积极的前景。

Oct, 2022

大型语言模型与游戏：调查与路线图

大语言模型（LLMs）在游戏中的应用和角色的综述和路线图，探讨了 LLMs 在游戏领域中未开发的领域和未来的发展方向。

Feb, 2024