利用生成式人工智能:通过生成的代码 - 注释对提高软件元数据分类能力
通过整合生成的代码和注释对,提高二进制代码注释质量分类模型的准确性, 使用包含 9048 对用 C 语言编写的代码和注释的数据集,每个都标注为 “有用” 或 “无用”。除此之外,还使用大型语言模型架构生成代码和注释对,并标记以指示其效用。这一努力的成果包括两个分类模型:一个利用原始数据集,另一个整合了新生成的代码注释对和标签的增强数据集。
Oct, 2023
通过应用生成式人工智能(AI)提升二进制代码注释质量分类模型性能,使用 OpenAI API 生成了包含 1239 个新生成的代码 - 注释对的数据集,该数据集从各种 GitHub 代码库和开源项目中提取,并为其标记为 “有用” 或 “无用”,并与现有的 9048 个 C 编程语言对称整合。当将生成的数据集集成到支持向量机(SVM)模型中时,精确度提高了 6%,从 0.79 提高到 0.85。此外,人工神经网络(ANN)模型的召回率增加了 1.5%,从 0.731 提高到 0.746。研究结果表明,生成式 AI 在增强代码注释质量分类模型中的潜力,验证了该方法的有效性,并显示出其在软件开发和质量保证领域中的更广泛应用性。研究结果强调了整合生成技术以提高机器学习模型在实际软件工程场景中的准确性和效果的重要性。
Oct, 2023
该研究论文提出了一种系统,用于自动预测代码 - 注释对的有用性,并研究了大型语言模型生成的数据对原始基础数据以及相应源代码的影响。通过使用评论和相应代码的神经上下文表示来训练基于机器学习的模型,我们开发了一个框架来预测代码 - 注释对的有用性,并分析了与基础数据使用 LLM 生成数据的性能。在官方评估中,我们的系统相对于基准线提高了 4% 的 F1 得分,并提高了生成数据的质量。
Oct, 2023
本文在研究代码注释生成中,分析了采用翻译模型的可行性以及 BLEU 得分的校准方法,并提出了基于信息检索方法的合理基准线以及未来研究方向的建议。
Oct, 2020
在软件工程中的信息检索(IRSE)领域,通过基于人类和大型语言模型生成的标签的机器学习框架,开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务,将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果,并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差,但能得到更少过拟合的结果。
Oct, 2023
本文提出了一种基于 IR 技术和模板的 API 注释生成方法。该方法将机器翻译模型迁移到注释生成任务中并且通过引入仅对模板执行的代码生成步骤,使模型更加准确。在 Java 程序员中取得了 state-of-the-art 的回归结果。
Oct, 2020
我们研究了大型语言模型的编程技能对其性能的影响,并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明,使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据进行训练的模型。
Feb, 2024
信息检索在软件工程(IRSE)中的研究旨在进行代码注释分类,通过比较经典机器学习系统的性能和使用大型语言模型生成的额外数据来评估性能增加,最佳模型在提供的种子数据上获得了 88.401% 的宏 F1 分数,并在 LLM 生成的数据上总体性能增加了 1.5%。
Oct, 2023
本文提出 APIContext2Com,利用预定义的 API 上下文来改善自动生成的代码注释的效果,介绍一种序列到序列编码器 - 解码器神经网络模型,它能够有效地将不同的输入转换为目标注释,并开发了一种排名机制来排除无关的 API。作者在 CodeSearchNet 数据集上评估了该方法,发现在 BLEU1、BLEU2、BLEU3、BLEU4、METEOR 和 ROUGE-L 方面分别提高了 1.88(8.24%)、2.16(17.58%)、1.38(18.3%)、0.73(14.17%)、1.58(14.98%)和 1.9(6.92%),同时作者进行人体评估和消融研究确认了该方法的有效性和架构和排名 API 的影响。
Mar, 2023
提出了一种结合检索和生成方法的方法,使用关注模块检索有信息量和相关性的用户生成数据评论,然后与文章一起作为输入,使用具有复制机制的序列到序列模型。在大规模评论生成数据集上展示了该模型的稳健性并证明了其在 BLEU-1 得分方面比具有注意力机制的 Seq2Seq 和信息检索模型等强基线模型显着优越约 27 和 30 个 BLEU-1 点。
Oct, 2018