学习用异构图表示程序
该研究提出了利用异构有向超图和异构有向超图神经网络处理代码分类的方法,并在公共的 Python 和 Java 代码数据集上测试,结果表明该方法可以提高代码理解和高阶数据相关性的表述。
May, 2023
本文介绍了如何使用图表示代码的句法和语义结构,并使用基于图的深度学习方法来学习对程序结构进行推理的方法。作者在两个任务上对该方法进行了评估:VarNaming 和 VarMisuse,结果表明使用已知结构的建模方法具有优势,并且可以在许多情况下学习推理有意义的变量名和解决 VarMisuse 任务,并且 VarMisuse 还可以发现成熟开源项目中的错误。
Nov, 2017
通过同时学习源代码和抽象语法树的结构信息,本篇研究提出了一种只使用与语言无关的功能和直接从抽象语法树中计算得出的功能的新机器学习模型,该模型在单语言和多语言代码总结方面均取得了最新成果。
Mar, 2021
在软件工程领域,编程语言理解与表示(即代码表示学习)一直是一个备受关注和具有挑战性的任务,其旨在应用深度学习技术生成源代码特征的数值表示同时保持其语义,这些表示可用于促进后续与代码相关的任务。然而,AST(抽象语法树)作为一种基本的代码特征,在代码表示学习中广泛应用,但目前缺乏对 AST-based 代码表示如何促进后续代码相关任务的系统和定量评估。本文通过详细的实证研究首次探索了 AST-based 代码表示在促进后续代码相关任务方面的有效性,并比较了基于代码标记序列和基于 AST 的代码表示方法在三种常见类型的代码相关任务上的性能。令人惊讶的是,整体定量统计结果表明,与基于代码标记的代码表示方案相比,基于 AST 的代码表示方法在所有三个任务中的表现均较差。进一步的定量分析显示,基于 AST 的代码表示方法在所有三个任务的某些子样本中优于基于代码标记的代码表示方法。我们还进行了全面的实验,评估和揭示了 AST 解析 / 预处理 / 编码方法的选择对基于 AST 的代码表示和后续代码相关任务的影响。本研究为未来的研究人员提供了关于如何选择每个阶段的解决方案以充分利用 AST 的详细指导。
Dec, 2023
介绍了针对类似代码生成和语义解析等需要将非结构化(或部分结构化)输入映射到格式化可执行输出的抽象语法网络建模框架,并使用一个具有动态确定模块化结构的解码器构建输出,具有与输出树结构相一致的特性,在 Hearthstone 数据集上获取了 79.2 BLEU 和 22.7% 的精确匹配度,相比之前最先进的值提高了 12.1 和 16.6 个百分点,在 Atis、Jobs 和 Geo 语义解析数据集上的表现也很有竞争力,并且无需进行任何任务特定的工程。
Apr, 2017
本文提出了一种使用图神经网络的自动代码注释生成方法,该方法使用了源代码序列和图结构信息作为输入,使用 210 万个 Java 方法 - 注释对进行评估,并表明比四种基线技术均有所改进。
Apr, 2020
本文针对现有技术在软件工程任务中依然存在两个问题:长期依赖和不同的代码组件被平等地处理。为了解决这些问题,本文提出了一种代表代码的层次结构(“Code Hierarchy”)和一种网络架构(“ECHELON”),该架构将异构图变换网络和基于树的卷积神经网络的优点相结合用于学习富含代码依赖信息的抽象语法树。同时,本文提出了一种新的预训练目标 “Missing Subtree Prediction” 来补充 “Code Hierarchy”。评估结果表明,我们的方法在任何代码完成、代码分类和代码克隆检测方面明显优于其他基线。
May, 2022
提出一种基于路径的编程语言自动学习表示方法,其将程序表示为其抽象语法树中的路径,可用于预测变量名称、方法名称和完全类型,并可跨不同编程语言驱动不同的学习算法。
Mar, 2018
本文通过解析抽象语法树(AST)推测了基于树状神经网络模型的行为,并提出了一种双重变换器方法,通过源代码标记和 AST 表示进行交叉注意力机制的操作,进一步探索了图神经网络(GNN)对于基于树状问题的适应性,实证评估发现,我们的双重变换器模型在各种数据集上表现出色,优于其他基于树状神经网络和基于 GNN 的模型。
Jun, 2024