重访源代码概要的文件上下文

Sep, 2023

Revisiting File Context for Source Code Summarization

Aakash Bansal, Chia-Yi Su, Collin McMillan

TL;DR代码摘要是编写源代码的自然语言描述的任务，这篇论文重新考虑了 “文件上下文” 的概念，提出了一种专门用于编码文件上下文的修改过的 Transformer 架构，并证明它相较于几个基线方法取得了改进。

Abstract

source code summarization is the task of writing natural language descriptions of source code. A typical use case is generating short summaries of subroutines for use in api documentation. The heart of almost all

source code summarization encoder-decoder neural architecture file context transformer architecture api documentation

发现论文，激发创造

利用文件上下文关注提高子程序的自动摘要能力

该文提出了一种利用文件上下文、采用注意力机制来查找子程序描述所需单词和概念的方法，以扩展和改进几种最近基线的源代码摘要生成的 AI 方法。

Apr, 2020

基于项目级编码的子程序神经源代码摘要

该论文提出了一种基于神经网络的源代码摘要方法，采用项目级别的编码器来增强当前主流的代码摘要技术，以提高摘要的准确性和效率。

Mar, 2021

基于语句的神经源代码摘要的记忆

源代码摘要是编写源代码行为的自然语言描述的任务。近来，神经源代码摘要已成为研究自动化代码摘要技术的前沿，本文介绍了一种基于语句的记忆编码器，通过训练学习了流程的重要元素，从而实现了基于语句的子程序表示，并展示了与最新技术相比的显著改进。

Jul, 2023

基于 Transformer 的源代码摘要方法

本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务，并提出其相对编码表现显著优于绝对编码，并通过实验验证其在处理长距离依赖性方面的有效性，实现了领先于现有技术的性能表现。

May, 2020

基于深度强化学习的自动源代码摘要改进

本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架，用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励，实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。

Nov, 2018

一种生成程序子程序自然语言摘要的神经模型

本研究提出了一种新的神经网络模型，它可以将源代码的单词和代码结构（AST）结合起来，从而能够生成准确的注释文档。与传统的基于模板的系统不同，该模型可以更好地学习代码结构，即使程序缺乏内部文档，也可以在演示中提供连贯的描述，并在 SE 文献和 NLP 文献中得到进一步的改进和应用验证。

Feb, 2019

一种源代码摘要的抽取和生成框架

本研究提出了一种新的抽取式 - 生成式混合框架来自动生成代码摘要，该框架结合了抽取式方法和生成式方法，能够提取关键的事实性细节，并生成简明、类似于人工撰写的自然语言摘要，实验证明 EACS 显著优于现有的技术，包括 BLEU，METEOR 和 ROUGH-L 等三个广泛使用的评估指标。

Jun, 2022

从结构和上下文中学习源代码的语言不可知性表示学习

通过同时学习源代码和抽象语法树的结构信息，本篇研究提出了一种只使用与语言无关的功能和直接从抽象语法树中计算得出的功能的新机器学习模型，该模型在单语言和多语言代码总结方面均取得了最新成果。

Mar, 2021

eWASH: 通过语法层次结构扩展窗口访问，对源代码文件进行长距离建模

通过使用语法树，将源代码的整个文件级上下文集成到一个固定长度的窗口中，从而实现了为编程任务提供上下文而不丧失大文件和包的整个相关上下文的目标，表现出了优秀的性能表现。

Sep, 2021

使用图神经网络改进代码摘要

本文提出了一种使用图神经网络的自动代码注释生成方法，该方法使用了源代码序列和图结构信息作为输入，使用 210 万个 Java 方法 - 注释对进行评估，并表明比四种基线技术均有所改进。

Apr, 2020