高性能数据框架的并行处理模式深度分析

Jul, 2023

高性能数据框架的并行处理模式深度分析

In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes

Niranda Perera, Arup Kumar Sarker, Mills Staylor, Gregor von Laszewski, Kaiying Shan...

TL;DR本文介绍基于高性能计算的分布式 DataFrame 操作常见模式和成本模型，同时评估了 Cylon 在 ORNL Summit 超级计算机上的性能表现。

Abstract

The data science domain has expanded monumentally in both research and industry communities during the past decade, predominantly owing to the Big Data revolution. artificial intelligence (AI) and →

data science artificial intelligence machine learning dataframes high-performance computing

发现论文，激发创造

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

机器学习算法的数据访问模式和计算冗余性回顾

通过分析利用数据局部性提高机器学习算法性能的方法，本文发现了通过改变数据访问模式以增加局部性可以显著提高给定算法性能的机会和使用重复计算结果来避免冗余的机会，并且在一些选定的机器学习算法上记录了这种重复计算结果的可能性，并提供了相关实验结果。

Apr, 2019

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

分布式基础架构下的模型并行性研究：从理论到 LLM 案例研究

神经网络的主题和研究领域涉及神经网络、模型并行性、操作符图、实施挑战和变压器网络。

Mar, 2024

GraphLab: 并行机器学习的新框架

通过针对机器学习中常见程序设计模式进行设计，使用 GraphLab 可以实现异步迭代算法的紧凑表达，同时保证数据一致性和高并行性能，将并行性能优化的提升应用于大规模实际问题中，并取得了很好的表现。

Aug, 2014

并行机器学习算法的性能和能耗

本文讨论了在高性能计算中，采用低功率算法以优化机器学习模型的效率，并测试逻辑回归、神经网络等算法在不同数据规模、模型复杂度下的并行加速表现。

May, 2023

Petuum：一个基于大数据分布式机器学习的新平台

本研究提出了一个通用的框架，通过观察到许多机器学习程序基于优化，容忍误差，迭代收敛算法解决方案，以系统地解决大规模机器学习中的数据和模型并行挑战，具有 ML 程序结构的有界误差网络同步和动态调度设计等系统设计，证明了这些系统设计比现代 ML 算法已知的实现更加高效，甚至可以在较小的计算集群上运行更少时间和更大的模型尺寸。

Dec, 2013

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

Python 科学计算管道集成的函数式编程范式

现代数据处理的出现导致了越来越多的跨学科研究，在这种研究中经常涉及到不同技术方法的引入。因此，迫切需要一个统一的数据控制系统来促进各种库的集成。本文提出了一种基于 Python 架构和相关套件的新颖的函数式编程范式，旨在实现不同数据映射操作管道的集成，特别是用于科学计算流程的集成，为上述挑战提供了强大而灵活的解决方案。

May, 2024