在核心互连智能处理器上扩展深度学习计算
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍,TOPS/Watt比GPU提高近70倍,比CPU提高200倍。
Apr, 2017
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和GPU的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在Resnet-101上取得了33.8%的验证精度,系统已被集成到Tensorflow、Caffe和Torch中。
Aug, 2017
提出了一种用于高度约束的多核心神经处理器单元的TensorFlow XLA/LLVM编译器优化方法,名为Tensor Slicing Optimization (TSO),这种方法最大限度地提高了NPU核心的卷积并行性和内存使用率,并使用DRAM内存突发时间估计来指导张量切片,以减少主机和NPU芯片内存之间的数据传输,很大程度上缩短了执行时间。
Apr, 2023
本研究提出了一种名为HaX-CoNN的新方案,将并发执行的深度神经网络推理工作负载的层映射到系统级芯片内的多种异构加速器,以最小化内存争用并提升工作负载的延迟和总体吞吐量。实验结果表明,与最先进的方法相比,HaX-CoNN可将内存争用降低最多45%,延迟和总体吞吐量分别提高最多32%和29%。
Aug, 2023
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括5个编码解码器LLM(从5.8亿到130亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软DeepSpeed Zero Redundancy Optimizer (ZeRO)阶段。
Oct, 2023
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与GPU相比,使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益,且在训练收敛或最终模型性能上没有明显减慢。
Nov, 2023
通过一个名为COSMA的优化框架,我们能够在专用硬件加速器上为DNNs找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂DNNs的数据访问降低85%以上。
Nov, 2023
使用CiMNet框架,通过同时搜索最优子网络和硬件配置来创建下游任务准确性和执行指标(如延迟)的帕累托最优前沿,该框架对于CNN和Transformer系列的不同模型结构都展现了显著的效果。
Feb, 2024
提出了FRED,这是一个面向片上网络的高带宽要求而量身定制的片上互连,可有效执行不同并行化策略的通信模式,并且通过大约2倍降低网络流量,改善了ResNet-152,Transformer-17B,GPT-3和Transformer-1T的平均端到端训练时间。
Jun, 2024
本研究解决了如何在多计算单元的异构系统上映射深度神经网络(DNN)的问题,以平衡推理的延迟和能耗,同时考虑到精度。提出的ODiMO工具在训练阶段有效探索DNN的细粒度映射,能够显著提高效率,实验结果表明,在同等精度下,ODiMO可将推理延迟减少最多8倍,并在能量效率方面实现高达50.8倍的改善。
Sep, 2024