代码到注释的翻译:数据、度量、基准和评估
我们研究了大型语言模型的编程技能对其性能的影响,并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明,使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据进行训练的模型。
Feb, 2024
通过使用上下文化嵌入(尤其是 BERT)自动化对代码评论进行分类的方法,以及应用不同的机器学习算法来区分有用和无用的代码评论,本研究展示了生成型人工智能在提高二元代码评论质量分类模型方面的潜力,并为软件开发人员和自然语言处理及软件工程研究人员提供了有价值的见解。
Oct, 2023
本文提出一种通过学习不同的自然语言表征和代码表征之间的关系,生成一系列编辑操作来更新现有自然语言注释的方法,并在开源软件项目集合上进行多个实验和对比,结果表明该模型性能优于其他算法。
Apr, 2020
通过整合生成的代码和注释对,提高二进制代码注释质量分类模型的准确性, 使用包含 9048 对用 C 语言编写的代码和注释的数据集,每个都标注为 “有用” 或 “无用”。除此之外,还使用大型语言模型架构生成代码和注释对,并标记以指示其效用。这一努力的成果包括两个分类模型:一个利用原始数据集,另一个整合了新生成的代码注释对和标签的增强数据集。
Oct, 2023
本文提出了一种基于 IR 技术和模板的 API 注释生成方法。该方法将机器翻译模型迁移到注释生成任务中并且通过引入仅对模板执行的代码生成步骤,使模型更加准确。在 Java 程序员中取得了 state-of-the-art 的回归结果。
Oct, 2020
提出了一种结合检索和生成方法的方法,使用关注模块检索有信息量和相关性的用户生成数据评论,然后与文章一起作为输入,使用具有复制机制的序列到序列模型。在大规模评论生成数据集上展示了该模型的稳健性并证明了其在 BLEU-1 得分方面比具有注意力机制的 Seq2Seq 和信息检索模型等强基线模型显着优越约 27 和 30 个 BLEU-1 点。
Oct, 2018
利用 BERT 和 Longformer 模型检测自然语言告知语境下源代码评论中的不一致性,经过实验验证成功超越多种基线算法并获得与排除语言和词汇特征的最新模型相当的效果,同时探讨使用预训练语言模型检测不一致性和自动更新评论的未来研究方向。
Jul, 2022
该研究论文提出了一种系统,用于自动预测代码 - 注释对的有用性,并研究了大型语言模型生成的数据对原始基础数据以及相应源代码的影响。通过使用评论和相应代码的神经上下文表示来训练基于机器学习的模型,我们开发了一个框架来预测代码 - 注释对的有用性,并分析了与基础数据使用 LLM 生成数据的性能。在官方评估中,我们的系统相对于基准线提高了 4% 的 F1 得分,并提高了生成数据的质量。
Oct, 2023
比较三种源代码摘要生成模型的定量和定性评估,揭示了基于度量的性能与模型预测错误之间关系的新洞见,并提供了摇号学习实验中可以用来推动未来研究工作的经验性错误分类学。
Jun, 2021