用最优张量再次材料化打破内存壁垒
本文讨论了在边缘计算设备上部署和训练神经网络所面临的诸多挑战,提出了一种名为 Moccasin 的新约束编程公式来最小化计算图的执行时间,达到内存预算的目的,并在大规模图中比最近的工作快一个数量级。
Apr, 2023
本文提出一种名为动态张量再制(DTR)的在线算法,可以在有限的内存条件下实现深度学习的模型训练,具有可扩展性和普适性,支持动态模型,并且性能与静态 checkpointing 的最优解相近,实现了 PyTorch 的 DTR 原型。
Jun, 2020
Rockmate 是一个自动化工具,从模型代码开始生成一个等效的模型,使用预定义数量的内存来控制 PyTorch DNN 模型训练时的内存需求。
Jul, 2023
本文介绍了 MONeT,一个自动框架,通过最小化深度神经网络的内存占用和计算负荷,优化检查点计划和各种算子的实现,实现了总体内存需求减少 3 倍的效果,能够优于所有以前的手调操作以及自动检查点。
Oct, 2020
通过一个名为 COSMA 的优化框架,我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。
Nov, 2023
SmartExchange 是一种算法 - 硬件协同设计框架,将高成本的存储 / 访问内存与低成本的计算交换,用于深度神经网络的能量高效推理。该算法通过强制一种特殊的 DNN 权重结构,成功将稀疏化、分解和量化三种主流模型压缩思想集成进一个统一框架中,最终得到的稀疏、易于量化的 DNN 具有极低的能耗和存储空间需求。此外,该研究还设计了一个专用加速器,可充分利用 SmartExchange 所强制的权重,改进深度神经网络的能效和延迟表现。
May, 2020
这篇论文介绍了 SmartMem,一个综合的框架,通过智能选择布局和实施操作,消除了大多数布局变换,并开发出适用于移动设备常见的 2.5 维内存的高效内存布局。实验结果表明,SmartMem 在 18 个不同神经网络上的移动设备上性能优于 5 个最先进的 DNN 执行框架,包括卷积神经网络、具有局部和全局注意力的 Transformer 以及 LLMs。特别是,与 DNNFusion 相比,SmartMem 的平均加速比为 2.8 倍,并且在平均值上优于 TVM 和 MNN,速度提高了 6.9 倍和 7.9 倍。
Apr, 2024
提出一种可同时优化分布式执行和渐进式检查点规划的系统,以支持在给定硬件上最小代码更改的情况下对模型进行并行训练,并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。
Feb, 2023
POET 算法可以实现在边缘设备上训练大型神经网络,同时减少能耗并不修改反向传播的数学正确性。在嵌入式设备的内存限制下,使用 POET 可以比当前边缘训练方法更节能地对 ResNet-18 和 BERT 进行微调。
Jul, 2022