CogDL:面向图深度学习的全面库
本文介绍了 Deep Graph Library(DGL)的设计原则和实现方法,DGL 将 GNNs 的计算模式提炼成几个泛化的稀疏张量操作,适合大规模并行化。DGL 以图形为中心编程抽象,能够透明地进行优化。同时 DGL 采用了框架中立的设计,允许用户在多个深度学习框架中轻松移植和利用现有的组件。我们的评估表明,在各种基准测试中,DGL 在速度和内存消耗方面都显著优于其他流行的面向 GNNs 的框架,并且对于小规模工作负载的开销很小。
Sep, 2019
本文介绍了 DistDGL 系统,作为基于 Deep Graph Library(DGL)进行开发的图神经网络(GNN)的分布式训练系统,具有高效、可扩展性等优点。该系统采用了高质量且轻量级的最小割图划分算法,并支持非本地节点组成的自我网络进行小批量训练。经过优化后,该系统可以在线性速度下训练高质量的模型,并且在 16 台机器上只需 13 秒完成 100 万节点和 30 亿边数的图的训练。
Oct, 2020
DIG 是一个富有研究性质的图形深度学习测试平台,提供数据接口、通用算法和评估指标,可拓展性强,适合研究者开发新算法并轻松地与公共数据集和评估指标进行比较。
Mar, 2021
本研究介绍了一个基于 DGL、RDKit 和 PyTorch 的开源包:DGL-LifeSci,为生命科学领域的深度学习提供了一个基于图的模型,在分子属性预测、反应预测和分子生成等任务中都有广泛应用,并且提供了命令行接口方便用户进行编程、深度学习和建模,同时 DGL-LifeSci 具有优化模块和预训练模型等特点。
Jun, 2021
该论文综述了图神经网络在数据挖掘和机器学习领域的广泛应用,提出了四种图神经网络的分类,并讨论了在各个领域中的应用以及图神经网络的开放源代码、基准数据集和模型评估,并提出了该领域的潜在研究方向。
Jan, 2019
该论文介绍 DistGNN,它使用共享内存实现 CPU 集群上的完全批量训练,减小了通过最小顶点切割图分区算法通信的要求,使用一系列延迟更新算法避免了通信,并在 Reddit、OGB-Products、OGB-Papers 和 Proteins 等常见 GNN 基准数据集上获得了 3.7 倍到 97 倍的加速。
Apr, 2021
这篇论文介绍了 OpenGSL,这是第一个全面的 Graph Structure Learning 基准,旨在通过评估出现在各种流行数据集,以及使用统一数据处理和分割策略的最新 GSL 方法之间的公平比较,缩小研究进展存在的差距。
Jun, 2023
图结构数据是从社交网络到生化分析等领域广泛存在的,它们为不同实际系统提供了基础。而图神经网络在建模这种类型的数据时具有很高的成功率,但通常依赖于大量标记数据,这在实际场景中具有有限的注释资源时带来挑战。为了解决这个问题,我们在低资源环境下增强图机器学习性能进行了巨大努力,探索了各种最小监督方法。本文首次介绍了数据高效图学习 (DEGL) 的新概念作为研究前沿,并总结了当前 DEGL 进展的首份综述。我们首先强调了在使用大量标记数据训练模型时固有的挑战,为我们对 DEGL 的探索铺平道路。接着,我们系统地回顾了最近在这个主题上的一些关键进展,包括自监督图学习、半监督图学习和小样本图学习。我们还提出了未来研究的有望方向,为图机器学习的发展作出了贡献。
Feb, 2024
提出了 GDL-DS,一个综合的基准评估,旨在评估 GDL 模型在具有分布偏移的场景中的性能,涵盖多样的科学领域,包括粒子物理学、材料科学和生物化学,并研究了三个层次的信息访问从测试数据中获取,对于 DGL 研究者和领域从业者在应用中使用 DGL 提供了深入分析的评估结果来提供见解。
Oct, 2023
这篇综述论文分析了分布式图神经网络训练的三个挑战以及通过四类优化技术解决这些挑战的方法:GNN 数据分区、GNN 批量生成、GNN 执行模式和 GNN 通信协议。最后,本文总结了现有的多 GPU、GPU 集群和 CPU 集群的分布式 GNN 系统,并就可伸缩 GNNs 的未来方向进行了讨论。
Nov, 2022