代码到注释的翻译：数据、度量、基准和评估

Oct, 2020

代码到注释的翻译：数据、度量、基准和评估

Code to Comment "Translation": Data, Metrics, Baselining & Evaluation

David Gros, Hariharan Sezhiyan, Prem Devanbu, Zhou Yu

TL;DR本文在研究代码注释生成中，分析了采用翻译模型的可行性以及 BLEU 得分的校准方法，并提出了基于信息检索方法的合理基准线以及未来研究方向的建议。

Abstract

The relationship of comments to code, and in particular, the task of generating useful comments given the code, has long been of interest. The earliest approaches have been based on strong syntactic theories of comment-structures, and relied on textual templates. More recently, researchers have applied →

code comment generation deep learning translation model code-comment datasets bleu score

发现论文，激发创造

代码需要注释：用注释增强代码 LLMs

我们研究了大型语言模型的编程技能对其性能的影响，并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明，使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据进行训练的模型。

Feb, 2024

利用生成式人工智能：通过生成的代码 - 注释对提高软件元数据分类能力

通过使用上下文化嵌入（尤其是 BERT）自动化对代码评论进行分类的方法，以及应用不同的机器学习算法来区分有用和无用的代码评论，本研究展示了生成型人工智能在提高二元代码评论质量分类模型方面的潜力，并为软件开发人员和自然语言处理及软件工程研究人员提供了有价值的见解。

Oct, 2023

基于代码更改的自然语言注释更新学习

本文提出一种通过学习不同的自然语言表征和代码表征之间的关系，生成一系列编辑操作来更新现有自然语言注释的方法，并在开源软件项目集合上进行多个实验和对比，结果表明该模型性能优于其他算法。

Apr, 2020

提升二进制代码注释质量分类：集成生成人工智能以提高准确性

通过整合生成的代码和注释对，提高二进制代码注释质量分类模型的准确性，使用包含 9048 对用 C 语言编写的代码和注释的数据集，每个都标注为 “有用” 或 “无用”。除此之外，还使用大型语言模型架构生成代码和注释对，并标记以指示其效用。这一努力的成果包括两个分类模型：一个利用原始数据集，另一个整合了新生成的代码注释对和标签的增强数据集。

Oct, 2023

检索和优化：基于示例的神经评论生成

本文提出了一种基于 IR 技术和模板的 API 注释生成方法。该方法将机器翻译模型迁移到注释生成任务中并且通过引入仅对模板执行的代码生成步骤，使模型更加准确。在 Java 程序员中取得了 state-of-the-art 的回归结果。

Oct, 2020

利用用户生成数据学习评论生成

提出了一种结合检索和生成方法的方法，使用关注模块检索有信息量和相关性的用户生成数据评论，然后与文章一起作为输入，使用具有复制机制的序列到序列模型。在大规模评论生成数据集上展示了该模型的稳健性并证明了其在 BLEU-1 得分方面比具有注意力机制的 Seq2Seq 和信息检索模型等强基线模型显着优越约 27 和 30 个 BLEU-1 点。

Oct, 2018

自然逻辑枢轴的评论：通过评论角度改进代码生成

借助注释作为代码 LLMs 生成能力的增强策略，MANGO 显著提高了代码通过率，并且逻辑注释解码策略的鲁棒性明显高于思路链引导。

Apr, 2024

使用 BERT 和 Longformer 检测代码注释不一致性

利用 BERT 和 Longformer 模型检测自然语言告知语境下源代码评论中的不一致性，经过实验验证成功超越多种基线算法并获得与排除语言和词汇特征的最新模型相当的效果，同时探讨使用预训练语言模型检测不一致性和自动更新评论的未来研究方向。

Jul, 2022

基于生成型人工智能数据增强的软件元数据分类的影响研究

该研究论文提出了一种系统，用于自动预测代码 - 注释对的有用性，并研究了大型语言模型生成的数据对原始基础数据以及相应源代码的影响。通过使用评论和相应代码的神经上下文表示来训练基于机器学习的模型，我们开发了一个框架来预测代码 - 注释对的有用性，并分析了与基础数据使用 LLM 生成数据的性能。在官方评估中，我们的系统相对于基准线提高了 4% 的 F1 得分，并提高了生成数据的质量。

Oct, 2023

代码注释翻译：模型效果与误差比较研究

比较三种源代码摘要生成模型的定量和定性评估，揭示了基于度量的性能与模型预测错误之间关系的新洞见，并提供了摇号学习实验中可以用来推动未来研究工作的经验性错误分类学。

Jun, 2021