Tram: 代码片段摘要的基于 Token 级别检索增强机制
本研究提出了使用检索增强机制和动态图神经网络结构来生成源代码摘要的方法,并在大规模的开源项目数据集上进行了实验,在 ROUGE-L,BLEU-4 和 METEOR 等方面取得了最先进的结果。
Jun, 2020
本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务,并提出其相对编码表现显著优于绝对编码,并通过实验验证其在处理长距离依赖性方面的有效性,实现了领先于现有技术的性能表现。
May, 2020
本文提出了一个新的端到端模型来同时处理代码摘要生成和检索两个任务通过引入额外的代码生成任务,利用双向学习明确地利用了代码摘要和代码生成之间的概率相关性,通过多任务学习利用用于代码摘要和代码生成的两个编码器训练代码检索任务。作者在现有的 SQL 和 Python 数据集上进行了广泛的实验,结果表明,我们的模型可以显著提高代码检索任务的结果,同时在代码摘要任务的 BLEU 得分方面也能够达到竞争性的性能。
Feb, 2020
本研究提出了一种新的神经网络模型,它可以将源代码的单词和代码结构(AST)结合起来,从而能够生成准确的注释文档。与传统的基于模板的系统不同,该模型可以更好地学习代码结构,即使程序缺乏内部文档,也可以在演示中提供连贯的描述,并在 SE 文献和 NLP 文献中得到进一步的改进和应用验证。
Feb, 2019
使用自学生成的样本进行 Fine-tune,我们提出了两种方法进行文本压缩:摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性,语义压缩可以将令牌大小减少 20%,但只有 1.6% 的准确性损失。
Oct, 2023
该研究提出了一个检索增强框架 REDCODER,用于检索相关的代码或摘要,作为代码生成或总结模型的补充,实现了与检索数据库的交互。这个机制可以扩展检索技术的功能,适用于含有不同模态的检索数据库,并在 Java 和 Python 的代码生成和摘要的基准数据集上得到了良好的实验结果。
Aug, 2021
本文研究使用 Transformer 技术来提高自动文本摘要的效率,提出基于检索的方法,可以降低处理整个文档的成本。实验结果表明,相较于基线,该方法的存储占用更少,且保证了文本摘要的可靠性。
Dec, 2022
源代码摘要是编写源代码行为的自然语言描述的任务。近来,神经源代码摘要已成为研究自动化代码摘要技术的前沿,本文介绍了一种基于语句的记忆编码器,通过训练学习了流程的重要元素,从而实现了基于语句的子程序表示,并展示了与最新技术相比的显著改进。
Jul, 2023
本研究提出了一种新的抽取式 - 生成式混合框架来自动生成代码摘要,该框架结合了抽取式方法和生成式方法,能够提取关键的事实性细节,并生成简明、类似于人工撰写的自然语言摘要,实验证明 EACS 显著优于现有的技术,包括 BLEU,METEOR 和 ROUGH-L 等三个广泛使用的评估指标。
Jun, 2022