生成 AI 用于生成测试数据生成器

Jan, 2024

Generative AI to Generate Test Data Generators

Benoit Baudry, Khashayar Etemadi, Sen Fang, Yogya Gamage, Yi Liu...

TL;DR通过生成 AI，我们评估了不同领域测试数据生成任务的三种水平上大型语言模型（LLMs）的能力，结果表明 LLMs 可以成功地在各种领域和三个集成性水平上生成逼真的测试数据生成器。

Abstract

Generating fake data is an essential dimension of modern software testing, as demonstrated by the number and significance of data faking libraries. Yet, developers of faking libraries cannot keep up with the wide

generative ai test data generation large language models fake data data faking libraries

发现论文，激发创造

生成人工智能用于合成数据生成：方法、挑战与未来

该论文探讨利用巨大的大语言模型生成特定任务训练数据的先进技术，介绍了方法论、评估技术和实际应用，并讨论了当前的限制和未来研究的潜在路径。

Mar, 2024

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

LLM4VV: 为编译器验证开发基于 LLM 的测试套件

探索最新的大型语言模型在代码生成方面的能力，调查提示和微调方法，并分析大型语言模型生成测试的结果。

Oct, 2023

揭示 LLM 生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据，并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

面向 AI 支持的知识发展环境的思想生成和测试

通过使用机器学习和大型语言模型，本论文介绍了一种知识工作者系统 Generate And Search Test，该系统能够高效地创建以前需要专家合作才能完成的解决方案。同时探讨了生成型人工智能和搜索引擎如何提供创意和验证事实、逻辑和语境，以消除人为偏见。

Jul, 2023

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

大型语言模型作为测试用例生成器：性能评估与增强

使用大型语言模型（LLMs）生成高质量的测试用例是一个重要问题，目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能，而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白，本文通过大量实验研究了 LLMs 生成高质量测试用例的能力，并提出了一种名为 TestChain 的多代理框架，通过与 Python 解释器的交互提供更准确的测试输出，实验结果表明 TestChain 在测试用例准确性上明显优于基准模型，其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。

Apr, 2024

知识注入引导：基于大型语言模型的临床文本数据生成评估与推进

通过结合临床领域特定知识图谱和大语言模型，在临床自然语言处理中提出了一种创新、资源高效的方法 ClinGen，通过临床知识提取和上下文信息化的大语言模型指导数据生成，持续提升性能，对生成训练实例的多样性和真实数据分布进行有效调整。

Nov, 2023

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024

生成 AI 之世界：深度伪造和大型语言模型

我们生活在生成式人工智能（GenAI）的时代。Deepfakes 和大型语言模型（LLMs）是 GenAI 的两个例子。然而，由于生成性质，它们的道德使用成为一个重要关注点。此篇文章试图探究它们之间的相互关系。

Feb, 2024