Oct, 2023

基于生成人工智能的软件元数据分类

TL;DR通过应用生成式人工智能(AI)提升二进制代码注释质量分类模型性能,使用 OpenAI API 生成了包含 1239 个新生成的代码 - 注释对的数据集,该数据集从各种 GitHub 代码库和开源项目中提取,并为其标记为 “有用” 或 “无用”,并与现有的 9048 个 C 编程语言对称整合。当将生成的数据集集成到支持向量机(SVM)模型中时,精确度提高了 6%,从 0.79 提高到 0.85。此外,人工神经网络(ANN)模型的召回率增加了 1.5%,从 0.731 提高到 0.746。研究结果表明,生成式 AI 在增强代码注释质量分类模型中的潜力,验证了该方法的有效性,并显示出其在软件开发和质量保证领域中的更广泛应用性。研究结果强调了整合生成技术以提高机器学习模型在实际软件工程场景中的准确性和效果的重要性。