大型语言模型是相当不错的零样本视频游戏缺陷检测器

Oct, 2022

大型语言模型是相当不错的零样本视频游戏缺陷检测器

Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors

Mohammad Reza Taesiri, Finlay Macklon, Yihe Wang, Hengshuo Shen, Cor-Paul Bezemer

TL;DR本研究探讨了利用大型语言模型的零样本能力来进行视频游戏中漏洞检测的可能性，并将漏洞检测问题表述为问答任务。我们介绍了 GameBugDescriptions 基准数据集，展示了六个模型在该数据集上的表现。结果表明，使用适当的提示技术，我们可以在某些游戏中实现高达 78.94％的准确度，为视频游戏漏洞检测提供了积极的前景。

Abstract

video game testing requires game-specific knowledge as well as common sense reasoning about the events in the game. While AI-driven agents can satisfy the first requirement, it is not yet possible to meet the second requirement automatically. Therefore, →

video game testing bug detection large language models question-answering benchmark dataset

发现论文，激发创造

在游戏开发中利用大型语言模型进行高效的故障分析

这篇论文提出了一种利用大型语言模型（LLMs）自动识别导致测试失败的代码更改的新方法，并通过定量和定性评估验证了该方法的有效性。通过 EA 开发者报告的问题进行的数据集评估结果显示，我们的方法在准确率上达到了 71％。此外，通过用户研究对我们的模型进行了评估，结果显示在开发者的视角下使用该工具可以显著减少问题调查所需的时间，最高可达 60％。

Jun, 2024

垃圾进，垃圾出：使用大型语言模型进行零样本犯罪检测

本文提出利用语言模型学习的常识知识，对监控视频文字描述进行零 - shot 推理，能够实现仅使用零 - shot 推理对犯罪进行检测和分类的性能优秀于现有的视频到文字自动生成模型。

Jul, 2023

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

基于 LLM 的文本游戏自动错误检测

通过基于大型语言模型的方法，我们提出了一种自动识别互动游戏中逻辑和设计缺陷的系统化方法，该方法应用于文本游戏 DejaBoom! 上能够高效地识别大型语言模型驱动的互动游戏中的缺陷，并填补了自动检测逻辑和设计缺陷的空白。

Jun, 2024

GlitchBench：大型多模型能否检测视频游戏故障？

将视频游戏的质量保证任务应用于大型多模式模型，通过 GlitchBench 评估其视觉理解和推理能力的挑战。

Dec, 2023

语言模型是少样本学习的管家

使用预训练语言模型和简单的强化学习算法，无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。

Apr, 2021

语言辅助视觉模型调试器：一种无需样本的查找错误方法

通过语言辅助诊断方法，使用文本而非图像来诊断视觉模型中的错误，通过嵌入空间和共享分类器及跨模态迁移识别图像，验证了在水鸟和 CelebA 数据集上诊断现有视觉模型的能力。

Dec, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

通过大型语言模型解决崩溃错误：实证研究

ChatGPT 的能力在解决现实世界的崩溃错误方面得到了首次调查，重点关注其在定位和修复与代码相关和环境相关的崩溃错误方面的效果。ChatGPT 在解决代码相关崩溃错误方面表现更好，其主要挑战在于不准确的定位。此外，我们还探索了 ChatGPT 在使用各种高级提示时的潜力。通过刺激 ChatGPT 的自我计划，它通过主动询问方法系统地研究了每个潜在的导致崩溃的环境因素，最终确定了崩溃的根本原因。根据我们的研究结果，我们提出了一种交互方法，名为 IntDiagSolver，旨在通过与 LLMs 的持续互动促进精确的崩溃错误解决。在多个 LLMs 上评估 IntDiagSolver 结果显示在崩溃错误解决的准确性方面持续提升，包括 ChatGPT、Claude 和 CodeLlama。

Dec, 2023

任务成功并不足够：调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为

在具体 AI 领域，利用大规模生成模型结合外部验证者，根据验证反馈逐步迭代推导最终解决方案，以验证是否达到说明中的目标条件，以便无缝整合到日常生活中，超越任务成功，和大范围的约束和个人偏好，为此构建一套测试基准，通过全面评估视觉与语言模型在识别视频中不良机器人行为方面的优点和失效模式，提供了有效利用模型评论的指导方针，并展示了将反馈融入政策改进的迭代过程的实用方法。

Feb, 2024