高性能计算系统上机器学习应用中的 I/O:全方位调查
通过将人工智能 / 机器学习模型集成到传统超级计算机工作流中,这篇论文讨论了提高科学性能的多种方式和生产级用例,并介绍了解决极限规模 AI 结合 HPC 活动的主要挑战和几种框架和中间件方案。
Aug, 2022
本文旨在研究 DL 计算框架中 I/O 对性能的影响并通过设计微型基准测试和使用 AlexNet 等来测量 TensorFlow 的 I/O 性能和检查点成本,在此基础上,提出了一种使用突发缓冲区进行检查点的设计,最终发现增加线程数量可以最多将 TensorFlow 带宽提高 2.3 倍,在 CPU 上增加使用 prefetcher 可以完全消除 I/O 对于整体性能的负面影响,并且在基准测试环境中使用突发缓冲区进行检查点可以使性能提高 2.6 倍。
Oct, 2018
研究了大规模 HPC 集群的集群级 I/O 模式的理解对于减少 I/O 干扰的发生和影响至关重要。通过分析三个超级计算机的 Darshan 报告,提取了系统级读写 I/O 速率在五分钟间隔内的显著波动,并训练机器学习模型预测系统级 I/O 突发事件,准确率超过 90%,并通过模拟脱机 I/O 操作、暂停非关键应用和设计 I/O 感知作业调度方法等方式验证了这一预测的可行性,结果显示,对 I/O 突发程度的估计能够使应用程序运行时间减少最多 5 倍。
Aug, 2023
本文主要探讨了高性能计算、人工智能 / 机器学习和量子计算以及通信对于计算机科学研究领域的创新和影响,并指出在支持计算机科学研究方面需要更全面的计算基础设施,包括商业云计算和量子计算等新的计算方法。
Dec, 2020
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担,但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。
Dec, 2019
研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案,考察 PIM 架构对机器学习算法训练的潜力,通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比,表现出更高效的处理机制和更好的加速效果。
Jul, 2022
使用监督学习技术对 HPC 应用程序中数据块大小进行估算的方法在 dislib 上进行实现并进行评估,实验结果表明该方法能够有效地确定给定数据集的拆分方法,从而在高性能环境中实现数据并行应用程序的高效执行。
Nov, 2022
云计算和大数据技术的快速发展使得存储系统成为数据中心的基础构件,尽管设计和实现可靠的存储系统仍然具有挑战性,但通过预测性预测可以加强存储系统的可靠性,我们对机器学习在存储系统中的应用进行了调查,讨论了各种机制和实地研究,评估了每项研究工作的优势和局限性。
Jul, 2023
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024