基于 Transformer 的源代码摘要方法

ACLMay, 2020

A Transformer-based Approach for Source Code Summarization

Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang

TL;DR本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务，并提出其相对编码表现显著优于绝对编码，并通过实验验证其在处理长距离依赖性方面的有效性，实现了领先于现有技术的性能表现。

Abstract

Generating a readable summary that describes the functionality of a program is known as source code summarization. In this task, learning code representation by modeling the pairwise relationship between code tokens to capture their →

source code summarization code representation transformer model self-attention mechanism long-range dependencies

发现论文，激发创造

利用结构相对位置引导的 Transformer 进行源代码摘要

该研究提出了一种结构相对位置引导的 Transformer 模型，名为 SCRIPT，通过解析源代码的抽象语法树来获得词汇之间的结构相对位置，以更好地捕捉源代码的语义表示，实验结果表明，与现有技术相比，SCRIPT 性能更好。

Feb, 2022

代码结构指导的源代码摘要变压器

本文提出了一个名为 SG-Trans 的新颖方法，通过将本地符号信息和全局句法结构注入到 Transformer 的自注意模块作为归纳偏置，并设计能够分布在 Transformer 的较低层和高层的注意头中，进一步捕捉代码的层次特征，将其有效地集成到 Transformer 来实现深度学习自动生成代码摘要，经过广泛评估，SG-Trans 相对于最佳基准测试结果在两个基准数据集上分别提高了 1.4％和 2.0％的 METEOR 得分，这是一种广泛用于测量生成质量的指标。

Apr, 2021

理解代码语义：Transformer 模型在摘要中的评估

这篇论文通过使用先进的基于变压器的语言模型深入研究了代码摘要。通过实证研究，我们改变函数和变量名称来评估代码摘要的效果，以探索模型是否真正理解代码语义或仅依赖于文本线索。我们还引入了死代码和注释代码等对抗性实验，覆盖了 Python、Javascript 和 Java 三种编程语言，进一步审查模型的理解能力。最终，我们的研究旨在提供有关基于变压器的语言模型内部工作方式的有价值见解，增强其理解代码的能力，并为更高效的软件开发实践和维护工作流做出贡献。

Oct, 2023

基于结构的 Transformer 的代码摘要

本研究利用结构诱导 Transformer 模型，提高源代码自动摘要生成的性能和效果。

Dec, 2020

Transformer 模型对于源代码的学习

文章提出了利用聚合注意力得分和注意力图从预训练模型自动提取程序图的方法，并将该方法应用于变量误用任务中，证明了自动提取的程序图具有极高的有意义和有效性。

Jul, 2022

基于语句的神经源代码摘要的记忆

源代码摘要是编写源代码行为的自然语言描述的任务。近来，神经源代码摘要已成为研究自动化代码摘要技术的前沿，本文介绍了一种基于语句的记忆编码器，通过训练学习了流程的重要元素，从而实现了基于语句的子程序表示，并展示了与最新技术相比的显著改进。

Jul, 2023

AST-MHSA：使用多头自注意力进行代码摘要

AST-MHSA 是一个使用多头注意力机制从抽象语法树中提取重要语义信息的模型，它包括编码器和解码器两个主要组件，编码器将代码的抽象语法树作为输入生成隐藏状态序列，解码器以这些隐藏状态为输入生成代码的自然语言摘要。

Aug, 2023

基于深度强化学习的自动源代码摘要改进

本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架，用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励，实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。

Nov, 2018

基于课程指导的抽象摘要

本文提出两个方法以弥补 Transformer-based summarization 模型在内容选择方面表现不佳和训练策略效率不高的缺陷，使得模型可以更好的理解要点，同时引入课程学习的方法提高了训练速度和质量，并用 Reddit TIFU 数据集和其他三个跨领域总结测量我们的模型的有效性，同时进行了人类评估表明所提出的方法在流畅性、信息量和整体质量等质量标准上具有良好的效果。

Feb, 2023

Tram: 代码片段摘要的基于 Token 级别检索增强机制

本文探讨了在解码器端实现细粒度的标记级别检索来帮助生成更好的代码摘要的机制，并将代码语义融入到摘要标记中，从而显著提高了性能。

May, 2023