Tram: 代码片段摘要的基于 Token 级别检索增强机制

May, 2023

Tram: 代码片段摘要的基于 Token 级别检索增强机制

Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization

Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du...

TL;DR本文探讨了在解码器端实现细粒度的标记级别检索来帮助生成更好的代码摘要的机制，并将代码语义融入到摘要标记中，从而显著提高了性能。

Abstract

Automatically generating human-readable text describing the functionality of a program is the intent of source code summarization. Although Neural Language Models achieve significant performance in this field, an emerging trend is combining neural models with →

source code summarization neural language models external knowledge fine-grained token-level retrieval code semantics

发现论文，激发创造

基于混合图神经网络的检索辅助代码摘要生成

本研究提出了使用检索增强机制和动态图神经网络结构来生成源代码摘要的方法，并在大规模的开源项目数据集上进行了实验，在 ROUGE-L，BLEU-4 和 METEOR 等方面取得了最先进的结果。

Jun, 2020

基于 Transformer 的源代码摘要方法

本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务，并提出其相对编码表现显著优于绝对编码，并通过实验验证其在处理长距离依赖性方面的有效性，实现了领先于现有技术的性能表现。

May, 2020

通过双向学习利用代码生成提高代码检索和概述质量

本文提出了一个新的端到端模型来同时处理代码摘要生成和检索两个任务通过引入额外的代码生成任务，利用双向学习明确地利用了代码摘要和代码生成之间的概率相关性，通过多任务学习利用用于代码摘要和代码生成的两个编码器训练代码检索任务。作者在现有的 SQL 和 Python 数据集上进行了广泛的实验，结果表明，我们的模型可以显著提高代码检索任务的结果，同时在代码摘要任务的 BLEU 得分方面也能够达到竞争性的性能。

Feb, 2020

一种生成程序子程序自然语言摘要的神经模型

本研究提出了一种新的神经网络模型，它可以将源代码的单词和代码结构（AST）结合起来，从而能够生成准确的注释文档。与传统的基于模板的系统不同，该模型可以更好地学习代码结构，即使程序缺乏内部文档，也可以在演示中提供连贯的描述，并在 SE 文献和 NLP 文献中得到进一步的改进和应用验证。

Feb, 2019

TCRA-LLM：基于令牌压缩检索的大规模语言模型，用于推理成本降低

使用自学生成的样本进行 Fine-tune，我们提出了两种方法进行文本压缩：摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性，语义压缩可以将令牌大小减少 20%，但只有 1.6% 的准确性损失。

Oct, 2023

检索增强代码生成与摘要

该研究提出了一个检索增强框架 REDCODER，用于检索相关的代码或摘要，作为代码生成或总结模型的补充，实现了与检索数据库的交互。这个机制可以扩展检索技术的功能，适用于含有不同模态的检索数据库，并在 Java 和 Python 的代码生成和摘要的基准数据集上得到了良好的实验结果。

Aug, 2021

文本摘要中的抽象化改进

提出使用上下文相关网络和预训练的语言模型来提高抽象文本摘要的生成水平和使用新颖度度量来优化生成的摘要，从而实现比现有方法更高水平的摘要生成。

Aug, 2018

文档级主体概括

本文研究使用 Transformer 技术来提高自动文本摘要的效率，提出基于检索的方法，可以降低处理整个文档的成本。实验结果表明，相较于基线，该方法的存储占用更少，且保证了文本摘要的可靠性。

Dec, 2022

基于语句的神经源代码摘要的记忆

源代码摘要是编写源代码行为的自然语言描述的任务。近来，神经源代码摘要已成为研究自动化代码摘要技术的前沿，本文介绍了一种基于语句的记忆编码器，通过训练学习了流程的重要元素，从而实现了基于语句的子程序表示，并展示了与最新技术相比的显著改进。

Jul, 2023

一种源代码摘要的抽取和生成框架

本研究提出了一种新的抽取式 - 生成式混合框架来自动生成代码摘要，该框架结合了抽取式方法和生成式方法，能够提取关键的事实性细节，并生成简明、类似于人工撰写的自然语言摘要，实验证明 EACS 显著优于现有的技术，包括 BLEU，METEOR 和 ROUGH-L 等三个广泛使用的评估指标。

Jun, 2022