利用生成人工智能增强灰盒模糊测试

Jun, 2023

利用生成人工智能增强灰盒模糊测试

Augmenting Greybox Fuzzing with Generative AI

Jie Hu, Qian Zhang, Heng Yin

TL;DR本文介绍了一种名为 ChatFuzz 的灰盒模糊测试工具，它利用生成式人工智能生成特定格式的输入，以提高输入测试质量和覆盖范围，实验结果表明在特定情况下，该工具能比当前最先进的 AFL++ 模糊测试工具更好地检测程序漏洞。

Abstract

Real-world programs expecting structured inputs often has a format-parsing stage gating the deeper program space. Neither a mutation-based approach nor a →

format-parsing mutation-based approach generative approach large language models greybox fuzzer

发现论文，激发创造

LLAMAFUZZ：大型语言模型加强的灰盒模糊测试

利用预训练的大型语言模型 (LLM) 增强结构化数据的灰盒模糊测试，通过利用 LLM 的先前训练知识和基于 Magma 等基准的实验，LLAMAFUZZ 比其他方法平均提高了 41 个漏洞的检测，实现了一致的性能提升。

Jun, 2024

GPTFUZZER：使用自动生成的越狱提示对大型语言模型进行红队测试

通过自动化模板生成的黑盒取证模糊框架，我们实现了uzzer，它在大量商业和开源语言模型上具有高攻击成功率，甚至在所有人工制作的模板失败的情况下也能维持超过 90％的攻击成功率，从而有助于评估和促进语言模型的安全性及鲁棒性研究。

Sep, 2023

超越随机输入：一种基于机器学习的硬件模糊测试

现代计算系统在硬件作为信任根基上依赖较重。然而，不断增加的复杂性导致了跨层攻击可以利用的安全关键弱点。我们提出了一种新颖的基于 ML 的硬件模糊测试工具 ChatFuzz，它利用类似 ChatGPT 的 LLMs 来理解处理器语言，并通过代码覆盖度度量指标引导输入生成，以此解决现有工具在实际时间范围内无法全面覆盖复杂硬件设计的问题。在测试中，与最先进的模糊测试工具相比，ChatFuzz 在仅 52 分钟内达到了 75% 的条件覆盖率，而后者需要 30 个小时的时间窗口才能达到类似的覆盖率。此外，我们的工具在 130 个小时的时间范围内，仅提供有限的 10 个模拟实例 / 许可证情况下即可达到 80% 的覆盖率。在此期间，共进行了 19.9 万个测试用例，其中 6 千个测试用例与处理器的黄金模型产生了差异。我们的分析发现了 10 多个独特的不匹配之处，包括 RocketCore 中的两个新 bug 和与 RISC-V ISA 模拟器的差异。

Apr, 2024

探索模糊测试作为神经测试生成的数据增强

本文介绍了一种将模糊测试和大型语言模型相结合的新型数据增强技术 **FuzzAug**，用于增强神经测试生成数据集，从而提高代码生成模型的准确性和分支覆盖率，增强自动化软件测试的效用。

Jun, 2024

FairFuzz: 针对罕见条件进行测试以快速提高灰盒模糊测试覆盖率

本研究提出了一种名为 FairFuzz 的模糊测试工具，通过优化输入的变异方式和优先选择罕见程序部分的输入数据，提高了对程序的覆盖率，并在实际测试中表现出比现有工具更好的标准。

Sep, 2017

核查事实并重试：利用外部知识和自动反馈提高大型语言模型

本研究提出了一种 LLm-Augmenter 系统，它通过使用存储在特定任务数据库中的外部知识和迭代地根据效用函数生成的反馈来改善 LLM 的提示，从而使其生成基于外部知识的响应，实现了应用到任务导向对话和问题回答的实际场景中，显著减少 ChatGPT 模型的幻觉。

Feb, 2023

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT: 最终的编程助手吗？—— 它有多远？

我们通过实证分析了 ChatGPT 在无人辅助编程助手方面的潜力，并强调了其相对程序生成、程序修复、代码摘要方面的表现，并对其在常见编程问题上的表现进行了评估，这证明 ChatGPT 有效地处理典型的编程挑战，但我们也发现，综合的描述可能会限制 ChatGPT 的关注点并阻碍其利用其广泛的知识进行问题解决。

Apr, 2023

基于大型语言模型的通用模糊测试

该研究介绍了 Fuzz4All，第一个在多种不同输入语言和不同语言特性中的通用模糊测试器，利用大型语言模型作为输入生成和变异引擎，以产生多样化和真实性的输入，对多种系统进行评估，发现了 76 个广泛使用的系统中的漏洞。

Aug, 2023