Feb, 2024
UniTSyn:一个可增强大型语言模型在程序测试中能力的大规模数据集
UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing
Yifeng He, Jiabo Huang, Yuyang Rong, Yiwen Guo, Ethan Wang...
TL;DR利用大型语言模型(LLMs)生成高质量代码的能力引起了软件测试界的广泛关注。本文介绍了一个大规模数据集 UniTSyn,用于提升 LLMs 在单元测试合成方面的能力。通过与被测试函数相关联的测试,UniTSyn 使 LLMs 能够推断预期行为和待验证的逻辑路径。通过基于 UniTSyn 构建自回归模型,实验证明在所有评估的编程语言中,学习和理解单元测试表征获得显著的效益,提高了生成准确性和代码覆盖率。