ParaGraph: HPC 内核性能优化的加权图表示

Apr, 2023

ParaGraph: HPC 内核性能优化的加权图表示

ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels

Ali TehraniJamsaz, Alok Mishra, Akash Dutta, Abid M. Malik, Barbara Chapman...

TL;DR本文介绍了一种基于图形的程序表示方法，用于预测在 CPU 和 GPU 上运行 OpenMP 代码区域的运行时间，并在构建数据集时使用折叠和数据传输等各种变换。该方法利用边权重和新边缘扩展 AST 来捕捉并行性，结果表明该方法具有很好的性能。

Abstract

gpu-based hpc clusters are attracting more scientific application developers due to their extensive parallelism and energy efficiency. In order to achieve portability among a variety of multi/many core architectures, a popular choice for an application developer is to utilize

gpu-based hpc clusters directive-based parallel programming machine learning graph-based program representation graph neural network

发现论文，激发创造

使用增强异构 AST 表示学习 OpenMP 并行化

本研究提出了一种基于图的学习方法 Graph2Par，该方法利用了一种包含丰富信息的异构增强抽象语法树（Augmented-AST）表示形式，并在 OpenMP 中主要关注循环级别并行化。通过创造一个包含 18598 个可并行化和 13972 个非可并行化循环的 OMP_Serial 数据集来训练机器学习模型，研究结果表明，该方法可以以 85％的准确度检测出可并行化的代码区域，并且优于基于状态的 Token 的机器学习方法。这些结果表明，该方法与最先进的工具具有竞争力，能够处理其他工具可能忽略的复杂结构的循环。

May, 2023

ProGraML: 基于图的深度学习用于程序优化和分析

ProGraML 是一种使用低级别、语言无关和可移植格式的新颖基于图的程序表示，其中包含能够对整个程序或每个顶点执行分类任务的机器学习模型，其提供了一种通用的程序表示，使可学习的模型能够执行优化所必需的程序分析类型，并在传统编译器分析任务、异构设备映射和程序分类等高级任务方面取得了具有以下优势的最新性能：94.0 F1 评分

Mar, 2020

PERFOGRAPH：适用于性能优化和程序分析的数值感知程序图表示

本研究提出了一种名为 PERFOGRAPH 的基于图形的程序表示方法，通过引入新的节点和边来捕获数值信息和组合数据结构，进一步提出了一种改进的嵌入方法来合并数值意识，使其成为一个高度灵活和可扩展的表示方法，以有效地捕获程序的细节依赖关系和语义信息，从而可以作为程序分析、性能优化和并行性发现等各种应用领域的强有力工具，并通过多种实验验证，证明了它在错误率和性能优化等方面的优越性。

May, 2023

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

基于抽象语法树 (AST) 的异构有向超图神经网络用于代码分类

该研究提出了利用异构有向超图和异构有向超图神经网络处理代码分类的方法，并在公共的 Python 和 Java 代码数据集上测试，结果表明该方法可以提高代码理解和高阶数据相关性的表述。

May, 2023

编程语言处理的多视角图形表示：算法检测研究

本文提出了一种多视图图形编程表示方法，使用图形神经网络处理数据和控制流，并在此基础上评估了该方法在算法检测中的性能，结果表明这种方法比先前的方法表现得更好。

Feb, 2022

一种基于图的性能分析新型表示学习技术

将表格形式的性能数据转换为图形，利用图神经网络方法捕捉特征和样本之间复杂的关系，以提高回归任务的性能分析领域中的预测模型的性能。

Jan, 2024

GraphLab: 并行机器学习的新框架

通过针对机器学习中常见程序设计模式进行设计，使用 GraphLab 可以实现异步迭代算法的紧凑表达，同时保证数据一致性和高并行性能，将并行性能优化的提升应用于大规模实际问题中，并取得了很好的表现。

Aug, 2014

GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练

通过 CPU-FPGA 异构系统，我们设计了一种新型加速器，通过算法 - 架构协同优化，提升 Graph Convolutional Networks 训练的速度。我们采用子图算法，优化特征传播，并提出基于 systolic array 的设计，实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上，我们的设计比现有多核平台的最新实现快一个数量级，且几乎没有精度损失。

Dec, 2019

基于图形转换器的 OpenMP 并行化建议

本文提出了一个基于 Transformer 的模型 OMPIfy，它利用源代码的图形表示来检测和预测并行代码中的 OpenMP Pragmas 和共享内存属性，使用大量的开源代码和最新的 AI 和自然语言处理技术，解决了自动并行化的问题。在大型语料库上评估，OMPIfy 在 F1 得分和准确性方面均优于现有方法，特别是在常用的 OpenMP 基准测试中，OMPIfy 达到了高达 90％的准确性。

May, 2023