基于大型语言模型的模糊测试技术综述
通过对顶级会议上最新的论文进行回顾,我们确定了大型语言模型(LLMs)在模糊测试中面临的五个主要挑战,并提出了一些可行的建议来改进 LLM 在模糊测试中的应用,并进行了对数据库管理系统的模糊测试的初步评估,结果表明我们的建议有效地解决了所确定的挑战。
Apr, 2024
该研究介绍了 Fuzz4All,第一个在多种不同输入语言和不同语言特性中的通用模糊测试器,利用大型语言模型作为输入生成和变异引擎,以产生多样化和真实性的输入,对多种系统进行评估,发现了 76 个广泛使用的系统中的漏洞。
Aug, 2023
通过研究使用大型语言模型(LLMs)在代码审查中的作用,其中包括检测安全漏洞和验证软件功能的有效性,本文发现大型专有模型在这些任务上的性能显著优于小型开源模型,并证明了 LLMs 能够生成与真实漏洞相关的详细描述。
Mar, 2024
大型语言模型引入新的安全风险,但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName,这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试:提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs,包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明,消除攻击风险的条件仍然是一个尚未解决的问题;例如,所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡:将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示,从而降低效用。我们建议使用 False Refusal Rate(FRR)来量化这种权衡。作为示例,我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现,许多 LLMs 能够与 “边界线” 良性请求成功地相符,同时拒绝大部分不安全的请求。最后,我们量化了 LLMs 在自动化核心网络安全任务(例如利用软件漏洞)方面的效用。这很重要,因为 LLMs 的进攻能力引起了极大的兴趣;我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型,但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的,可以用于评估其他 LLMs。
Apr, 2024
使用大型语言模型 (LLMs) 构建的 WhiteFox 是第一个使用源代码信息进行白盒编译器模糊测试的编译器模糊器,可以生成高质量的测试来执行需要复杂条件的深度优化,发现了 96 个错误,其中 80 个为新错误,并且已经修复了 51 个。
Oct, 2023