AI 耦合 HPC 工作流中异构任务的异步执行
通过将人工智能 / 机器学习模型集成到传统超级计算机工作流中,这篇论文讨论了提高科学性能的多种方式和生产级用例,并介绍了解决极限规模 AI 结合 HPC 活动的主要挑战和几种框架和中间件方案。
Aug, 2022
本研究使用深度强化学习技术,提出了一种方法,在具备多种协处理器的异构 SoC 系统中智能地调度和学习任务流,实验结果表明,相比于传统的调度启发式算法,我们的强化学习系统在最小化执行时间方面提供了更好的选择。
Jun, 2019
使用多种计算资源,如高度并行的超级计算机和专用加速器,部署基于 AI 的模拟工作流非常有利,其中,云托管管理服务的使用可以简化跨资源身份验证和授权,功能即服务(FaaS)函数调用和数据传输等方面的管理,我们的研究表明使用云托管管理服务可以实现与直接连接资源使用情况相当的性能优化。
Mar, 2023
最近的大规模语言模型等新型大规模混合模态工作负载大大增加了硬件的计算和内存需求。为了应对不断增长的需求,设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中,基于 2.5D 硅互联器多芯片模块(MCM)的人工智能加速器已被广泛探索,由于其在低工程成本和可组合性方面具有显著优势。然而,以前的 MCM 加速器是基于具有固定数据流的同构架构,对于高度异构的多模型工作负载存在重大挑战,因为它们的工作负载适应性有限。因此,在本研究中,我们探索了采用异构数据流 MCM 人工智能加速器的机会。我们确定了在异构数据流 MCM 人工智能加速器上进行多模型工作负载调度是一个重要且具有挑战性的问题,由于其重要性和规模,即使在 6x6 芯片的单模型情况下,也达到 O(10 ^ 18)规模。我们开发了一组启发式方法来遍历巨大的调度空间,并将它们整理成具有高级技术(如芯片间流水线)的调度器。我们对十种多模型工作负载场景进行的评估(包括数据中心多租户和增强现实 / 虚拟现实应用)显示了我们方法的有效性,相比于同构基线,平均能减少 35.3% 和 31.4% 的能量 - 延迟产品(EDP)。
May, 2024
本文介绍了一种新的动态组合异构系统的方法,以进一步推进数据驱动的科学实践,以提高计算效率和特定科学领域的可用工具,并概述了一项以可组合基础架构为基础的案例研究,展示了火灾建模的应用。
Nov, 2022
给定了日益复杂的人工智能应用,我们通过分析发现了一种相互连接的、多方面任务的模式,涵盖了人工智能和一般计算过程。对此,我们提出了 “Orchestrated AI Workflows” 的概念,将各种任务与逻辑驱动的决策整合成动态而复杂的工作流程。同时,我们提出了 Octopus,一个针对执行 Orchestrated AI Workflows 而优化的可扩展的空间架构和一套先进的调度策略,它在处理动态需求方面显著优于传统架构,并在大规模硬件(如大规模芯片)上具有强大的可扩展性。
May, 2024
本文主要探讨了高性能计算、人工智能 / 机器学习和量子计算以及通信对于计算机科学研究领域的创新和影响,并指出在支持计算机科学研究方面需要更全面的计算基础设施,包括商业云计算和量子计算等新的计算方法。
Dec, 2020
通过模块化的方法和新的抽象概念,提出了一种多智能体框架,使许多具有不同目标的贡献者能够共同开发和扩展智能系统,并异步使用和扩展模块化的智能系统。
Sep, 2022
现代大规模科学发现需要跨多个计算设施进行多学科合作,其中包括高性能计算(HPC)机器和边缘到云的连续体。综合数据分析在科学发现中起着至关重要的作用,特别是在当前人工智能时代,通过支持负责任的 AI 开发、FAIR、可重复性和用户调节。然而,科学的异构性提出了一些挑战,例如处理多个支持工具、跨设施环境和高效的 HPC 执行。在数据可观察性、适配器系统设计和溯源的基础上,我们提出了 MIDA:一种轻量级运行时多工作流集成数据分析方法。MIDA 定义了针对各种并行系统和机器学习工具的数据可观察性策略和适应性方法。通过可观察性,在后台截取数据流,无需仪器,同时将领域、溯源和遥测数据以运行时的方式整合到一个统一的数据库中,以准备好用户调节查询。我们进行了实验,展示了从 Dask 和 MLFlow 集成数据的端到端多工作流分析,用于材料科学中的真实分布式深度学习用例,在多个环境中平行运行,最多 276 个 GPU。我们展示了在 Summit 超级计算机上,在 1,680 个 CPU 核心上运行高达 100,000 个任务的接近零开销。
Aug, 2023