- 训练神经网络解释二进制
在这项工作中,我们开始探讨使用深度神经网络对二进制代码理解进行训练的可能性。具体而言,网络将以直接从二进制中派生的特征作为输入,并输出英文功能描述,以帮助逆向工程师调查闭源软件的功能,无论是恶意的还是良性的。我们发现嵌入距离相关性(EDC) - 重访源代码概要的文件上下文
代码摘要是编写源代码的自然语言描述的任务,这篇论文重新考虑了 “文件上下文” 的概念,提出了一种专门用于编码文件上下文的修改过的 Transformer 架构,并证明它相较于几个基线方法取得了改进。
- 基于语句的神经源代码摘要的记忆
源代码摘要是编写源代码行为的自然语言描述的任务。近来,神经源代码摘要已成为研究自动化代码摘要技术的前沿,本文介绍了一种基于语句的记忆编码器,通过训练学习了流程的重要元素,从而实现了基于语句的子程序表示,并展示了与最新技术相比的显著改进。
- Tram: 代码片段摘要的基于 Token 级别检索增强机制
本文探讨了在解码器端实现细粒度的标记级别检索来帮助生成更好的代码摘要的机制,并将代码语义融入到摘要标记中,从而显著提高了性能。
- 基于变压器的多尺度多模态方法用于源代码摘要生成
本研究旨在提出一种基于多尺度、多模态方法和 Transformer 的源代码摘要生成模型 (M2TS),该模型使用多尺度 AST 特征提取方法、代码词法特征和跨模态融合方法,以更全面准确地抓取 AST 的结构特征,同时融合语法和上下文语义信 - 利用结构相对位置引导的 Transformer 进行源代码摘要
该研究提出了一种结构相对位置引导的 Transformer 模型,名为 SCRIPT,通过解析源代码的抽象语法树来获得词汇之间的结构相对位置,以更好地捕捉源代码的语义表示,实验结果表明,与现有技术相比,SCRIPT 性能更好。
- 基于项目级编码的子程序神经源代码摘要
该论文提出了一种基于神经网络的源代码摘要方法,采用项目级别的编码器来增强当前主流的代码摘要技术,以提高摘要的准确性和效率。
- 基于混合图神经网络的检索辅助代码摘要生成
本研究提出了使用检索增强机制和动态图神经网络结构来生成源代码摘要的方法,并在大规模的开源项目数据集上进行了实验,在 ROUGE-L,BLEU-4 和 METEOR 等方面取得了最先进的结果。
- ACL基于 Transformer 的源代码摘要方法
本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务,并提出其相对编码表现显著优于绝对编码,并通过实验验证其在处理长距离依赖性方面的有效性,实现了领先于现有技术的性能表现。
- 利用文件上下文关注提高子程序的自动摘要能力
该文提出了一种利用文件上下文、采用注意力机制来查找子程序描述所需单词和概念的方法,以扩展和改进几种最近基线的源代码摘要生成的 AI 方法。
- 使用扩展 Tree-LSTM 自动生成源代码摘要
该研究探讨了使用神经机器翻译模型进行源代码自动生成文档的机器翻译任务,并阐述了抽象语法树在源码的机器学习研究中的重要性和 Tree-LSTM 方法的局限性,并提出了一种新方法 Multi-way Tree-LSTM 来应对此问题,对比现有技 - 一种生成程序子程序自然语言摘要的神经模型
本研究提出了一种新的神经网络模型,它可以将源代码的单词和代码结构(AST)结合起来,从而能够生成准确的注释文档。与传统的基于模板的系统不同,该模型可以更好地学习代码结构,即使程序缺乏内部文档,也可以在演示中提供连贯的描述,并在 SE 文献和