基于大型语言模型的模糊测试技术综述

Feb, 2024

基于大型语言模型的模糊测试技术综述

Large Language Models Based Fuzzing Techniques: A Survey

Linghan Huang, Peizhou Zhao, Huaming Chen, Lei Ma

TL;DR本文调查总结了截至 2024 年的最新方法，统计分析了三个领域（即 LLMs、模糊测试和基于 LLMs 的模糊测试），并探讨了将基于 LLMs 的模糊测试技术广泛应用于未来的潜力。

Abstract

In the modern era where software plays a pivotal role, software security and vulnerability analysis have become essential for software development. Fuzzing test, as an efficient →

software security vulnerability analysis fuzzing test large language models (llms)software testing

发现论文，激发创造

模糊测试与 LLMs 的结合：挑战与机遇

通过对顶级会议上最新的论文进行回顾，我们确定了大型语言模型（LLMs）在模糊测试中面临的五个主要挑战，并提出了一些可行的建议来改进 LLM 在模糊测试中的应用，并进行了对数据库管理系统的模糊测试的初步评估，结果表明我们的建议有效地解决了所确定的挑战。

Apr, 2024

基于大型语言模型的通用模糊测试

该研究介绍了 Fuzz4All，第一个在多种不同输入语言和不同语言特性中的通用模糊测试器，利用大型语言模型作为输入生成和变异引擎，以产生多样化和真实性的输入，对多种系统进行评估，发现了 76 个广泛使用的系统中的漏洞。

Aug, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

使用大型语言模型进行漏洞检测的现状

通过实验发现，一些 LLM 在漏洞检测方面超越传统深度学习方法，揭示了 LLM 在加强软件安全方面的潜力。

Nov, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

大型语言模型在网络安全中的调查

大型语言模型在网络安全领域的应用、使用方式、局限性以及如何克服这些局限性和期望中的成果进行了调查。

Feb, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

基于大语言模型强化的白盒编译器模糊测试

使用大型语言模型 (LLMs) 构建的 WhiteFox 是第一个使用源代码信息进行白盒编译器模糊测试的编译器模糊器，可以生成高质量的测试来执行需要复杂条件的深度优化，发现了 96 个错误，其中 80 个为新错误，并且已经修复了 51 个。

Oct, 2023