高性能计算系统上机器学习应用中的 I/O：全方位调查

Apr, 2024

高性能计算系统上机器学习应用中的 I/O：全方位调查

I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey

Noah Lewis, Jean Luca Bez, Suren Byna

TL;DR通过对高性能计算系统中机器学习应用的 I/O 进行研究，本文在 2019 年至 2024 年的 6 年时间窗口内，概述了机器学习的常见阶段，评估了可用的分析工具和基准测试，探讨了机器学习训练过程中遇到的 I/O 模式，研究了现代机器学习框架中使用的 I/O 优化方法并提出了未来的研究方向和需要进一步探索的问题。

Abstract

high-performance computing (HPC) systems excel in managing distributed workloads, and the growing interest in artificial intelligence (AI) has resulted in a surge in demand for faster methods of →

high-performance computing artificial intelligence machine learning i/o patterns ml frameworks

发现论文，激发创造

AI-coupled HPC 工作流程

通过将人工智能 / 机器学习模型集成到传统超级计算机工作流中，这篇论文讨论了提高科学性能的多种方式和生产级用例，并介绍了解决极限规模 AI 结合 HPC 活动的主要挑战和几种框架和中间件方案。

Aug, 2022

TensorFlow 中深度学习 I/O 工作负载的表征

本文旨在研究 DL 计算框架中 I/O 对性能的影响并通过设计微型基准测试和使用 AlexNet 等来测量 TensorFlow 的 I/O 性能和检查点成本，在此基础上，提出了一种使用突发缓冲区进行检查点的设计，最终发现增加线程数量可以最多将 TensorFlow 带宽提高 2.3 倍，在 CPU 上增加使用 prefetcher 可以完全消除 I/O 对于整体性能的负面影响，并且在基准测试环境中使用突发缓冲区进行检查点可以使性能提高 2.6 倍。

Oct, 2018

使用 Darshan 日志进行高性能计算机集群的 I/O 突发预测

研究了大规模 HPC 集群的集群级 I/O 模式的理解对于减少 I/O 干扰的发生和影响至关重要。通过分析三个超级计算机的 Darshan 报告，提取了系统级读写 I/O 速率在五分钟间隔内的显著波动，并训练机器学习模型预测系统级 I/O 突发事件，准确率超过 90％，并通过模拟脱机 I/O 操作、暂停非关键应用和设计 I/O 感知作业调度方法等方式验证了这一预测的可行性，结果显示，对 I/O 突发程度的估计能够使应用程序运行时间减少最多 5 倍。

Aug, 2023

人工智能、量子和高性能计算的基础设施

本文主要探讨了高性能计算、人工智能 / 机器学习和量子计算以及通信对于计算机科学研究领域的创新和影响，并指出在支持计算机科学研究方面需要更全面的计算基础设施，包括商业云计算和量子计算等新的计算方法。

Dec, 2020

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

机器学习训练在实际处理内存系统上的实验评估

研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案，考察 PIM 架构对机器学习算法训练的潜力，通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比，表现出更高效的处理机制和更好的加速效果。

Jul, 2022

使用机器学习技术估计高性能计算应用程序的数据分区块大小

使用监督学习技术对 HPC 应用程序中数据块大小进行估算的方法在 dislib 上进行实现并进行评估，实验结果表明该方法能够有效地确定给定数据集的拆分方法，从而在高性能环境中实现数据并行应用程序的高效执行。

Nov, 2022

朝可学习的存储系统可预测性

云计算和大数据技术的快速发展使得存储系统成为数据中心的基础构件，尽管设计和实现可靠的存储系统仍然具有挑战性，但通过预测性预测可以加强存储系统的可靠性，我们对机器学习在存储系统中的应用进行了调查，讨论了各种机制和实地研究，评估了每项研究工作的优势和局限性。

Jul, 2023

分析基于真实处理内存系统的分布式优化算法

大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Apr, 2024