UniTSyn：一个可增强大型语言模型在程序测试中能力的大规模数据集

Feb, 2024

UniTSyn：一个可增强大型语言模型在程序测试中能力的大规模数据集

UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing

Yifeng He, Jiabo Huang, Yuyang Rong, Yiwen Guo, Ethan Wang...

TL;DR利用大型语言模型（LLMs）生成高质量代码的能力引起了软件测试界的广泛关注。本文介绍了一个大规模数据集 UniTSyn，用于提升 LLMs 在单元测试合成方面的能力。通过与被测试函数相关联的测试，UniTSyn 使 LLMs 能够推断预期行为和待验证的逻辑路径。通过基于 UniTSyn 构建自回归模型，实验证明在所有评估的编程语言中，学习和理解单元测试表征获得显著的效益，提高了生成准确性和代码覆盖率。

Abstract

The remarkable capability of large language models (LLMs) in generating high-quality code has drawn increasing attention in the software testing community. However, existing code LLMs often demonstrate unsatisfactory capabilities in generating accurate and complete tests since they wer

large language models code generation unit test synthesis unitsyn dataset autoregressive model

发现论文，激发创造

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

探索和释放大型语言模型在自动代码翻译中的潜力

LLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升，但当前仍存在一些准确性问题和资源限制。本研究发现，大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果，我们提出了 UniTrans，一个适用于多种 LLMs 的统一代码转换框架，通过生成测试用例、自动增强转换并验证正确性的执行过程，进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验，三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。

Apr, 2024

UniGen：使用大型语言模型进行文本数据集生成的统一框架

UniGen 是一个综合的 LLM 框架，利用创新机制解决现有生成框架中的泛化、可控性、多样性和准确性等挑战，通过引入属性导向的生成模块和检查功能，以及基于代码的数学评估和检索增强生成技术，产生多样、准确和高度可控的数据，并支持用户指定的约束条件，满足特定需求。相比其他生成方法，UniGen 生成的数据质量更高，适用于动态演变的基准测试和数据增强，提升了 LLM 在代理能力和推理技能等领域的能力。

Jun, 2024

面向非功能属性生成系统级测试程序的大型语言模型

使用预训练的大型语言模型（LLMs）生成测试程序以优化设备的非功能性能。

Mar, 2024

大型语言模型合成文本数据集的语言多样性可视化

本研究提出了一款交互式可视化工具 LinguisticLens，通过对大语言模型生成的数据集的句法多样性进行聚类，用户可以快速检查数据集的总体情况并检查单个示例。

May, 2023

大型语言模型与自动化机器学习的协同效应

使用大型语言模型 (LLMs) 驱动的代码生成在最近变得越来越流行。然而，自动生成机器学习 (ML) 任务的代码仍然面临着重大挑战。本文通过结合 LLMs 和自动化机器学习 (autoML) 来探索 ML 程序合成的极限，旨在完全自动化从数据准备到建模和后处理的整个 ML 工作流程的代码生成过程，只使用 ML 任务的文本描述。

May, 2024

代码合成的自动生成单元测试数据与演员 - 评论者强化学习

自动获取适用于代码合成模型的强化学习训练数据，结合简单而有效的演员 - 评论家强化学习训练方案，提高预训练代码语言模型的性能。

Oct, 2023

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

LLM4TDD：使用大型语言模型进行测试驱动开发的最佳实践

使用测试驱动开发方法，将大型语言模型指导进行迭代式代码生成，以提高软件系统正确性的程序综合方法。通过在 ChatGPT 和 LeetCode 编码问题上进行实证评估，研究不同测试、提示和问题属性对 LLM4TDD 方法有效性的影响。

Dec, 2023

CAT-LM: 训练基于对齐的代码和测试的语言模型

CAT-LM 是一个使用 27 亿参数在 Python 和 Java 项目语料库上进行训练的新颖的预训练信号，通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码，并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。

Oct, 2023