探索模糊测试作为神经测试生成的数据增强

Jun, 2024

探索模糊测试作为神经测试生成的数据增强

Exploring Fuzzing as Data Augmentation for Neural Test Generation

Yifeng He, Jicheng Wang, Yuyang Rong, Hao Chen

TL;DR本文介绍了一种将模糊测试和大型语言模型相结合的新型数据增强技术 **FuzzAug**，用于增强神经测试生成数据集，从而提高代码生成模型的准确性和分支覆盖率，增强自动化软件测试的效用。

Abstract

testing is an essential part of modern software engineering to build reliable programs. As testing the software is important but expensive, automatic test case generation methods have become popular in software d

testing automatic test case generation neural test generation data augmentation software testing

发现论文，激发创造

TensorFuzz: 利用覆盖率引导模糊测试调试神经网络

本研究介绍了用于发现神经网络中仅在罕见输入下出现错误的自动化软件测试技术，其中关键技术为基于覆盖率的模糊测试方法，并提出快速近似最近邻居算法来提供覆盖度量，最终开发了 TensorFuzz 开源库以实现这些技术。

Jul, 2018

TestAug：一个增强能力为基础的 NLP 测试框架

本文介绍了一种基于 GPT-3 引擎生成测试用例的低成本方法，并提出使用分类器将输出扩展为模板生成更多测试用例。测试结果表明 TestAug 比现有方法具有更多的优势：（1）TestAug 可以发现更多的错误；（2）TestAug 的测试用例更加多样化；（3）TestAug 在创建测试套件方面大大节省了人力成本。

Oct, 2022

DLFuzz: 深度学习系统差分模糊化测试

本文提出了 DLFuzz, 第一个可引导 DL 系统暴露错误行为的差分模糊测试框架，相比于 DeepXplore 具有更高的神经元覆盖率、更高效的寻找故障输入、更小的干扰等优势。

Aug, 2018

基于大型语言模型的模糊测试技术综述

本文调查总结了截至 2024 年的最新方法，统计分析了三个领域（即 LLMs、模糊测试和基于 LLMs 的模糊测试），并探讨了将基于 LLMs 的模糊测试技术广泛应用于未来的潜力。

Feb, 2024

利用生成人工智能增强灰盒模糊测试

本文介绍了一种名为 ChatFuzz 的灰盒模糊测试工具，它利用生成式人工智能生成特定格式的输入，以提高输入测试质量和覆盖范围，实验结果表明在特定情况下，该工具能比当前最先进的 AFL++ 模糊测试工具更好地检测程序漏洞。

Jun, 2023

神经字节筛选器用于模糊测试：并非所有字节都相等

通过使用神经网络学习输入文件中的模式，将以前的 fuzzing 探索的经验用于指导未来的探索，从而实现对程序漏洞发现的改进。

Nov, 2017

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

数据增强在源代码学习中的应用：一项实证研究

本篇研究探讨使用数据增强方法，如 mixup 和 syntax-breaking，对于用于源代码语言的训练数据的质量提升，结果表明这些方法可以产生更准确和稳健的模型。

Mar, 2023

数据增广提升 AI 攻击代码生成器的鲁棒性

本文利用自然语言中新的输入，即代码描述的扰动，在安全导向的代码环境下分析了这些扰动对 AI 进攻代码生成器性能的影响，并使用该方法进行了数据增强以增加训练数据的变化和多样性，证明其对扰动和非扰动代码描述的有效性。

Jun, 2023