编程语言处理的多视角图形表示:算法检测研究
ProGraML 是一种使用低级别、语言无关和可移植格式的新颖基于图的程序表示,其中包含能够对整个程序或每个顶点执行分类任务的机器学习模型,其提供了一种通用的程序表示,使可学习的模型能够执行优化所必需的程序分析类型,并在传统编译器分析任务、异构设备映射和程序分类等高级任务方面取得了具有以下优势的最新性能:94.0 F1 评分
Mar, 2020
本文介绍了如何使用图表示代码的句法和语义结构,并使用基于图的深度学习方法来学习对程序结构进行推理的方法。作者在两个任务上对该方法进行了评估:VarNaming 和 VarMisuse,结果表明使用已知结构的建模方法具有优势,并且可以在许多情况下学习推理有意义的变量名和解决 VarMisuse 任务,并且 VarMisuse 还可以发现成熟开源项目中的错误。
Nov, 2017
本文提出了 CODE-MVP 模型来将多种不同的源代码视角集成到一个统一的框架中,并通过多视图对比预训练来学习其中的补充信息和类型推断目标函数,实验证明 CODE-MVP 优于其他现有模型在自然语言代码检索、代码相似性、代码缺陷检测等三个下游任务中的性能表现。
May, 2022
大型多模态模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了数学推理在视觉环境中的性能。然而,多模态图理论问题是一类具有挑战性的视觉数学问题,要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准,用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。随后,我们提出了一个描述 - 编程 - 推理(DPR)链,在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明:1)GPT-4V 在多步图推理方面优于 Gemini Pro;2)无论在零 / 少样本设置还是在受监督微调(SFT)中,所有 LMM 在图形结构的感知准确性方面表现较差,这进一步影响了问题解决的性能;3)DPR 显著提高了 LMM 的多步图推理能力,GPT-4V(DPR)代理达到了 SOTA 性能。
May, 2024
提出了简单的概率多视图图嵌入(PMvGE)框架,用于多视图特征学习,结合了对多对多关联和非线性特征转换的模拟,证实 PMvGE 可学习视图间宽类相似度测量,且效果显著。
Feb, 2018
提出使用图神经网络(GNNs)基于程序的抽象语法树(ASTs)将变量集合映射到两个程序之间,以修复初级编程作业(IPAs)中初学者经常出现的错误,并在实验中表明,与当前最先进的程序修复方法相比,仅基于变量映射的方法可以修复大约 88.5%的错误程序。
Jul, 2023
通过逐渐增加全局图分支的通道并减少局部分支的通道,逐渐分离图构建(PSGC)引入二阶相似性,使用最大池化和数学期望(MaxE)进行富信息邻居节点信息聚合和更新,以减轻过度平滑的图错误线性单元(GraphLU)增强松弛形式的低值信息,实验证明 PVG 在图像识别任务中优于现有方法。
Aug, 2023
本研究利用多视角方法来学习来自多个视角的图表征学习表示,提出了一个适用于网络规模推荐系统的多任务多视图图表征学习框架 (M2GRL),在淘宝上进行了测试,结果表明,该框架在网址推荐方面的性能显著优于现有的算法。
May, 2020
该研究提出了一个多视角方法和多样化预文本任务引入的框架,即 Multi-view Graph Encoder (MVGE),以捕捉图形中的不同信号,并在合成和现实数据集上进行了广泛实验,并显示出显着的性能改进。
Apr, 2023
通过使用 Syntax Graph Retrieval Augmented Code Generation (CodeGRAG) 模型,可以提高大型语言模型在单轮代码生成任务中的性能,填补编程语言和自然语言之间的差距,并使用外部结构化知识作为不同编程语言之间的桥梁,从而显著提高语言模型的代码生成能力。
May, 2024