在核心互连智能处理器上扩展深度学习计算

Aug, 2024

在核心互连智能处理器上扩展深度学习计算

Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor

Yiqi Liu, Yuqi Xue, Yu Cheng, Lingxiao Ma, Ziming Miao...

TL;DR该研究解决了当前深度学习编译器无法充分利用新型AI芯片中可扩展核心互连的问题。论文提出了T10编译器，创新性地引入分布式张量抽象rTensor，并通过普适的计算迁移模式优化了DNN模型在核心间的数据交换，从而实现了3.3倍的性能提升，使得对更大模型的可扩展性得以支持。

Abstract

As AI Chips incorporate numerous parallelized cores to scale Deep Learning (DL) computing, inter-core communication is enabled recently by employing high-bandwidth and low-latency interconnect links on the chip (

发现论文，激发创造

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍，TOPS/Watt比GPU提高近70倍，比CPU提高200倍。

Apr, 2017

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和GPU的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在Resnet-101上取得了33.8%的验证精度，系统已被集成到Tensorflow、Caffe和Torch中。

Aug, 2017

多核 NPUs 的张量切片和优化

提出了一种用于高度约束的多核心神经处理器单元的TensorFlow XLA/LLVM编译器优化方法，名为Tensor Slicing Optimization (TSO)，这种方法最大限度地提高了NPU核心的卷积并行性和内存使用率，并使用DRAM内存突发时间估计来指导张量切片，以减少主机和NPU芯片内存之间的数据传输，很大程度上缩短了执行时间。

Apr, 2023

共享内存冲突感知的异构片上系统并发DNN执行

本研究提出了一种名为HaX-CoNN的新方案，将并发执行的深度神经网络推理工作负载的层映射到系统级芯片内的多种异构加速器，以最小化内存争用并提升工作负载的延迟和总体吞吐量。实验结果表明，与最先进的方法相比，HaX-CoNN可将内存争用降低最多45%，延迟和总体吞吐量分别提高最多32%和29%。

Aug, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括5个编码解码器LLM（从5.8亿到130亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软DeepSpeed Zero Redundancy Optimizer (ZeRO)阶段。

Oct, 2023

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与GPU相比，使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

为减少DNN加速器的片外数据访问而结合调度、内存分配和张量替换

通过一个名为COSMA的优化框架，我们能够在专用硬件加速器上为DNNs找到最佳的操作调度、内存分配和张量替换方式，从而最小化额外数据访问，同时通过分而治之的启发式方法可以将复杂DNNs的数据访问降低85%以上。

Nov, 2023

面向计算内存硬件的深度神经网络架构和配置的联合优化

使用CiMNet框架，通过同时搜索最优子网络和硬件配置来创建下游任务准确性和执行指标（如延迟）的帕累托最优前沿，该框架对于CNN和Transformer系列的不同模型结构都展现了显著的效果。

Feb, 2024

FRED: 适用于芯片尺度分布式深度学习模型训练的灵活缩减分发互连和通信实现

提出了FRED，这是一个面向片上网络的高带宽要求而量身定制的片上互连，可有效执行不同并行化策略的通信模式，并且通过大约2倍降低网络流量，改善了ResNet-152，Transformer-17B，GPT-3和Transformer-1T的平均端到端训练时间。

Jun, 2024

在训练时优化多加速器SoC上的深度神经网络推理

本研究解决了如何在多计算单元的异构系统上映射深度神经网络(DNN)的问题，以平衡推理的延迟和能耗，同时考虑到精度。提出的ODiMO工具在训练阶段有效探索DNN的细粒度映射，能够显著提高效率，实验结果表明，在同等精度下，ODiMO可将推理延迟减少最多8倍，并在能量效率方面实现高达50.8倍的改善。

Sep, 2024