本文提出了一种基于 IR 技术和模板的 API 注释生成方法。该方法将机器翻译模型迁移到注释生成任务中并且通过引入仅对模板执行的代码生成步骤,使模型更加准确。在 Java 程序员中取得了 state-of-the-art 的回归结果。
Oct, 2020
通过代码提交信息和修改代码所产生的消息来训练一种编码器 — 解码器结构的模型,以自然语言自动描述程序中的变化,该方法在 12 个开源项目中进行了评估,并在标准项目设置和跨项目设置中展示了可行的和语义良好的描述。
Apr, 2017
本文提出一种通过学习不同的自然语言表征和代码表征之间的关系,生成一系列编辑操作来更新现有自然语言注释的方法,并在开源软件项目集合上进行多个实验和对比,结果表明该模型性能优于其他算法。
Apr, 2020
本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架,用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励,实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。
Nov, 2018
本研究提出了一种新的神经网络模型,它可以将源代码的单词和代码结构(AST)结合起来,从而能够生成准确的注释文档。与传统的基于模板的系统不同,该模型可以更好地学习代码结构,即使程序缺乏内部文档,也可以在演示中提供连贯的描述,并在 SE 文献和 NLP 文献中得到进一步的改进和应用验证。
Feb, 2019
本文研究了如何自动生成音乐的文本描述,使用众包音乐评论构建了新数据集,并提出了一种序列到序列模型以及新的评估方法来衡量生成文本的质量。实验结果证明该模型能够生成流畅、有意义的评论,并包含原始音乐的主题和内容信息。
Sep, 2022
通过使用上下文化嵌入(尤其是 BERT)自动化对代码评论进行分类的方法,以及应用不同的机器学习算法来区分有用和无用的代码评论,本研究展示了生成型人工智能在提高二元代码评论质量分类模型方面的潜力,并为软件开发人员和自然语言处理及软件工程研究人员提供了有价值的见解。
Oct, 2023
本文在研究代码注释生成中,分析了采用翻译模型的可行性以及 BLEU 得分的校准方法,并提出了基于信息检索方法的合理基准线以及未来研究方向的建议。
本文提出了一种使用图神经网络的自动代码注释生成方法,该方法使用了源代码序列和图结构信息作为输入,使用 210 万个 Java 方法 - 注释对进行评估,并表明比四种基线技术均有所改进。
本文提出了代码解释生成任务,通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择,并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美,这一任务可以极大地受益于软件维护和编程教育。
Nov, 2022