AI-coupled HPC 工作流程

Aug, 2022

AI-coupled HPC Workflows

Shantenu Jha, Vincent R. Pascuzzi, Matteo Turilli

TL;DR通过将人工智能 / 机器学习模型集成到传统超级计算机工作流中，这篇论文讨论了提高科学性能的多种方式和生产级用例，并介绍了解决极限规模 AI 结合 HPC 活动的主要挑战和几种框架和中间件方案。

Abstract

Increasingly, scientific discovery requires sophisticated and scalable workflows. Workflows have become the ``new applications,'' wherein multi-scale computing campaigns comprise multiple and heterogeneous executable tasks. In particular, the introduction of ai/ml models into the tradi

ai/ml models hpc workflows scientific performance task heterogeneity adaptivity

发现论文，激发创造

AI 耦合 HPC 工作流中异构任务的异步执行

本文研究异构科学工作流中异步任务执行的要求和性质，提出度量异步执行的定性好处的关键指标，并在 Summit 上进行的实验表明，使用异步执行可以大大提高性能.

Aug, 2022

人工智能、量子和高性能计算的基础设施

本文主要探讨了高性能计算、人工智能 / 机器学习和量子计算以及通信对于计算机科学研究领域的创新和影响，并指出在支持计算机科学研究方面需要更全面的计算基础设施，包括商业云计算和量子计算等新的计算方法。

Dec, 2020

高性能计算系统上机器学习应用中的 I/O：全方位调查

通过对高性能计算系统中机器学习应用的 I/O 进行研究，本文在 2019 年至 2024 年的 6 年时间窗口内，概述了机器学习的常见阶段，评估了可用的分析工具和基准测试，探讨了机器学习训练过程中遇到的 I/O 模式，研究了现代机器学习框架中使用的 I/O 优化方法并提出了未来的研究方向和需要进一步探索的问题。

Apr, 2024

科学中的人工智能：一个新兴议程

本报告总结了 Dagstuhl Seminar 22382“科学中的机器学习：桥接数据驱动和机理建模” 的讨论并提出了如何协作来推动人工智能和科学发现的新一波进展的路线图。

Mar, 2023

可扩展、分布式 AI 框架：利用云计算提高深度学习性能和效率

本文全面研究了利用云计算的可扩展和分布式人工智能框架以提高深度学习性能和效率的关键方面，包括数据存储和管理、优化策略、模型部署与服务等，并讨论了云计算人工智能的挑战、限制和未来研究方向。

Apr, 2023

Chat AI：一个无缝的 Slurm 原生解决方案，用于基于 HPC 的服务

提供一种基于云端虚拟机的网络服务架构，与高性能计算系统相结合，通过 Slurm 集群实现运行大规模语言模型，提供一种安全、私密的可替代商业大规模语言模型服务的解决方案。

Jun, 2024

SCAR: 在异构多芯片模块加速器上调度多模型 AI 工作负载

最近的大规模语言模型等新型大规模混合模态工作负载大大增加了硬件的计算和内存需求。为了应对不断增长的需求，设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中，基于 2.5D 硅互联器多芯片模块（MCM）的人工智能加速器已被广泛探索，由于其在低工程成本和可组合性方面具有显著优势。然而，以前的 MCM 加速器是基于具有固定数据流的同构架构，对于高度异构的多模型工作负载存在重大挑战，因为它们的工作负载适应性有限。因此，在本研究中，我们探索了采用异构数据流 MCM 人工智能加速器的机会。我们确定了在异构数据流 MCM 人工智能加速器上进行多模型工作负载调度是一个重要且具有挑战性的问题，由于其重要性和规模，即使在 6x6 芯片的单模型情况下，也达到 O（10 ^ 18）规模。我们开发了一组启发式方法来遍历巨大的调度空间，并将它们整理成具有高级技术（如芯片间流水线）的调度器。我们对十种多模型工作负载场景进行的评估（包括数据中心多租户和增强现实 / 虚拟现实应用）显示了我们方法的有效性，相比于同构基线，平均能减少 35.3% 和 31.4% 的能量 - 延迟产品（EDP）。

May, 2024

云服务使异构资源上高效的 AI 引导仿真工作流程成为可能

使用多种计算资源，如高度并行的超级计算机和专用加速器，部署基于 AI 的模拟工作流非常有利，其中，云托管管理服务的使用可以简化跨资源身份验证和授权，功能即服务（FaaS）函数调用和数据传输等方面的管理，我们的研究表明使用云托管管理服务可以实现与直接连接资源使用情况相当的性能优化。

Mar, 2023

超越效率：可持续扩展人工智能

AI 的碳排放问题及效率优化的机会和可持续性

Jun, 2024

人工智能模型持续开发的流程 —— 研究与实践当前状况

本文提供了一个综合的文献综述及九个半结构化采访，总结了 AI 模型持续开发中面临的挑战。作者提出了一种适用于 AI 持续开发的流水线，包含数据处理、模型学习、软件开发及系统运维四个阶段，并针对每个阶段的实施、适应和使用提出了具体挑战。

Jan, 2023