我们给出了一种基于代数方法的新的最佳优化 BFS 算法,使用渐进的小子矩阵乘法还原了图的结构,对于稀疏图性能与最优算法保持一致,并且在 PRAM 上是工作最优的。
Jun, 2019
本研究使用理论高效的并行图算法和优化技术,结合大规模图分析,能够使单机具有 1TB 内存的计算机在几分钟内处理超过 35 亿个节点和 1280 亿条边的实际网络图像。同时,研究组将开发的这些算法公开提供给社区,以用作图算法效果评价指标的基准。
May, 2018
引入 Breadth-First Pipeline Parallelism,这是一种结合了 pipeline 和 data parallelism 的新型训练策略,通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性,以及完全分片的数据并行性,降低了训练时间、成本和内存使用。实验结果显示训练速度提高了 53%。
Nov, 2022
我们提出了一种高度并行的算法,用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分,在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案,展示了所提出算法在真实世界的图数据集上比替代解决方案实现了相当快的加速(包括在亿级图上的表现)。
Dec, 2022
本篇论文提出了一种分布式高性能并行的 Bayesian Probabilistic Matrix Factorization (BPMF)算法实现方案,并使用了在单节点上的高效负载均衡使用工作窃取和在分布式版本中使用异步通信的方法,超越了现有技术水平。
May, 2017
本文提出了一种基于多核 CPU 的快速解决方案 Fast-BNS,用于加速贝叶斯网络结构学习,通过动态工作池设计、CI 测试分组、缓存友好数据存储和实时生成条件集等优化措施,实现了对处理时间和内存使用的有效控制,并在综合实验研究中证明了其相对于当前多线程技术的显著加速效果。
本文主要研究在共享内存平台下内存限制下数据分配和任务调度问题,提出了一个整数线性规划模型和基于禁忌搜索算法的可行解决方案,并在随机生成的实例上验证了该方法的有效性。
May, 2022
该论文提出了一种基于图分割的分布式计算算法,其可以有效降低数据分布式处理过程中的通信成本,实验结果表明该算法能够在机器学习系统中实现 1.6 倍的加速,并且消除 90%的网络通信。
May, 2015
我们设计、分析和优化基于分区本地深度(PaLD)的顺序和共享内存并行算法。通过对成对距离进行三元比较,我们设计了两种算法变体来执行社区结构分析。通过理论分析计算和通信成本,我们证明了顺序算法在通信上的最佳性能。我们介绍了性能优化策略,使得顺序实现相对于基线顺序实现加速高达 29 倍,并且在 Intel 多核 CPU 上使用 32 个线程时相对于优化顺序实现加速高达 19.4 倍。
Jul, 2023
本研究提出了一种名为二进制分布式图形算法的方法,该方法使用二进制编码与图形结构相结合以加速在线和离线程序,并通过回忆更多二进制候选项来实现与实值场景中的性能相当,废除了单个机器内存和磁盘存储的限制,对超过 30 亿张图像的阿里巴巴商品数据集进行的实验比较表明,该方法优于现有技术的在线 / 离线平衡。
Feb, 2021