本研究旨在提出一种基于多尺度、多模态方法和 Transformer 的源代码摘要生成模型 (M2TS),该模型使用多尺度 AST 特征提取方法、代码词法特征和跨模态融合方法,以更全面准确地抓取 AST 的结构特征,同时融合语法和上下文语义信息,从而生成源代码的高质量摘要并在实验证明了其优于当前最新研究。
Mar, 2022
本文介绍了一种称为 CAST 的新型模型,采用分层拆分和重构 AST 来完整地捕捉 AST 中的丰富信息,利用递归神经网络对子树进行编码,通过重构拆分后的 AST 来聚合嵌入子树,最后使用 AST 表示和源码嵌入进行代码摘要,进而提高程序的理解和维护能力。
Aug, 2021
该研究探讨了使用神经机器翻译模型进行源代码自动生成文档的机器翻译任务,并阐述了抽象语法树在源码的机器学习研究中的重要性和 Tree-LSTM 方法的局限性,并提出了一种新方法 Multi-way Tree-LSTM 来应对此问题,对比现有技术取得更好的结果。
Jun, 2019
本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务,并提出其相对编码表现显著优于绝对编码,并通过实验验证其在处理长距离依赖性方面的有效性,实现了领先于现有技术的性能表现。
May, 2020
本文研究了 CodeBERT 模型基于 AST 和静态分析,通过自我关注机制和 Masked Language Modelling(MLM)在令牌级别上学习代码语法和语义的能力,展示了其中自我关注机制在了解代码语法和语义方面的关键作用,并提出了一组任务来分析 CodeBERT 模型,同时,文章还提出了一种替代方法来预训练模型,充分利用当前的预训练策略,即 MLM,以学习代码语法和语义。
Dec, 2022
本文提出了一种新的多模式注意力网络(MMAN)来解决代码检索过程中的两个主要问题:缺少结构化特征以及深度学习方法的可解释性,其中.MMAM 能够准确地从大规模的代码库中检索代码片段,同时在实际数据集上也比当前最先进的方法表现更优秀。
Sep, 2019
通过多任务学习范式,利用三个以摘要为重点的任务训练编码器,提出了一种新的改进代码摘要的方法,这三个任务包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验证明,我们的方法 ESALE 在四个数据集上的表现明显优于基线模型,包括 BLEU、METEOR 和 ROUGE-L 三个广泛使用的指标。
Jul, 2024
源代码摘要是编写源代码行为的自然语言描述的任务。近来,神经源代码摘要已成为研究自动化代码摘要技术的前沿,本文介绍了一种基于语句的记忆编码器,通过训练学习了流程的重要元素,从而实现了基于语句的子程序表示,并展示了与最新技术相比的显著改进。
Jul, 2023
通过使用稀疏注意力机制的神经网络,我们介绍了一种名为 SACC 的方法用于代码分类任务,其中把源代码分为子树序列,并使用递归神经网络编码以及 Transformer 模型进行分类,证明了其在代码分类任务中的有效性和效率。
Nov, 2023
本文提出了一种名为 SASA 的结构感知稀疏注意机制用于长代码理解任务。SASA 采用 top-k 稀疏关注机制和基于抽象语法树的结构感知关注机制,能够高效降低计算成本并处理长代码,实现了优于竞争基准模型的表现。
May, 2022