SCAR: 在异构多芯片模块加速器上调度多模型 AI 工作负载

May, 2024

SCAR: 在异构多芯片模块加速器上调度多模型 AI 工作负载

SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators

Mohanad Odema, Luke Chen, Hyoukjun Kwon, Mohammad Abdullah Al Faruque

TL;DR最近的大规模语言模型等新型大规模混合模态工作负载大大增加了硬件的计算和内存需求。为了应对不断增长的需求，设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中，基于 2.5D 硅互联器多芯片模块（MCM）的人工智能加速器已被广泛探索，由于其在低工程成本和可组合性方面具有显著优势。然而，以前的 MCM 加速器是基于具有固定数据流的同构架构，对于高度异构的多模型工作负载存在重大挑战，因为它们的工作负载适应性有限。因此，在本研究中，我们探索了采用异构数据流 MCM 人工智能加速器的机会。我们确定了在异构数据流 MCM 人工智能加速器上进行多模型工作负载调度是一个重要且具有挑战性的问题，由于其重要性和规模，即使在 6x6 芯片的单模型情况下，也达到 O（10 ^ 18）规模。我们开发了一组启发式方法来遍历巨大的调度空间，并将它们整理成具有高级技术（如芯片间流水线）的调度器。我们对十种多模型工作负载场景进行的评估（包括数据中心多租户和增强现实 / 虚拟现实应用）显示了我们方法的有效性，相比于同构基线，平均能减少 35.3% 和 31.4% 的能量 - 延迟产品（EDP）。

Abstract

Emerging multi-model workloads with heavy models like recent large language models significantly increased the compute and memory demands on hardware. To address such increasing demands, designing a scalable hardware ar

multi-model workloads scalable hardware architecture 2.5d silicon interposer multi-chip module heterogeneous dataflow mcm ai accelerators energy-delay product (edp)

发现论文，激发创造

异构芯片上的多模型推理的层间调度空间探索

通过实验我们的框架在 4 芯片系统上对 GPT-2 和 ResNet-50 模型的使用，相较于优化输出固定数据流的整体加速器，吞吐量和能效分别提高了 2.2 倍和 1.9 倍。

Dec, 2023

MARS：在自适应多加速器系统上利用多层并行性优化 DNN 工作负载

基于深度神经网络的多加速器系统中，选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题，我们提出了一个名为 MARS 的新型映射框架，可以执行计算感知的加速器选择，并应用通信感知的分片策略来最大化并行性，实验证明，与基准相比，MARS 可以平均减少 32.2% 的延迟，并且相对于对应的最先进方法，可以减少 59.4% 的异构模型的延迟。

Jul, 2023

神经异构调度器

本研究使用深度强化学习技术，提出了一种方法，在具备多种协处理器的异构 SoC 系统中智能地调度和学习任务流，实验结果表明，相比于传统的调度启发式算法，我们的强化学习系统在最小化执行时间方面提供了更好的选择。

Jun, 2019

克服规模扩展机器学习硬件加速器中的通信瓶颈的硅光 2.5D 互联网

现代机器学习应用越来越复杂，单芯片加速器架构无法满足其能效和吞吐量要求。本文介绍了如何利用光通信和计算在 2.5D 平台上实现能效高、吞吐量大的 2.5D 机器学习加速器架构。

Mar, 2024

DiviML: 模块化启发式算法用于神经网络在异构平台上的映射

数据中心中的异构深度神经网络调度器利用混合整数线性规划和基于模块化的启发式方法，通过自动分区和设备映射，优化了深度神经网络的计算性能并显著提高了解决方案的质量，可用于调度大型语言模型跨多个异构服务器。

Jul, 2023

2.5D 芯片平台中的硅光子学机器学习加速器

本文描述了如何将光计算和通信集成到 2.5D 芯片平台中，从而驱动一类新型的可持续扩展的机器学习硬件加速器，以加速新兴的机器学习工作负载，通过跨层设计、硬件 / 软件协同设计和硅光子设计制备。

Jan, 2023

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

AI 耦合 HPC 工作流中异构任务的异步执行

本文研究异构科学工作流中异步任务执行的要求和性质，提出度量异步执行的定性好处的关键指标，并在 Summit 上进行的实验表明，使用异步执行可以大大提高性能.

Aug, 2022

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

为减少 DNN 加速器的片外数据访问而结合调度、内存分配和张量替换

通过一个名为 COSMA 的优化框架，我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式，从而最小化额外数据访问，同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。

Nov, 2023