合作:记忆不是一种商品
本文提出一种名为动态张量再制(DTR)的在线算法,可以在有限的内存条件下实现深度学习的模型训练,具有可扩展性和普适性,支持动态模型,并且性能与静态 checkpointing 的最优解相近,实现了 PyTorch 的 DTR 原型。
Jun, 2020
本文讨论了在边缘计算设备上部署和训练神经网络所面临的诸多挑战,提出了一种名为 Moccasin 的新约束编程公式来最小化计算图的执行时间,达到内存预算的目的,并在大规模图中比最近的工作快一个数量级。
Apr, 2023
本篇研究论文提出了 Checkmate,这是一种针对训练 DNN 进行时间和内存要求的权衡的系统,它可以在不到一小时的时间内解决最佳重构日程表,并使用这些日程表加速数百万次的训练迭代,可适用于复杂的网络结构。
Oct, 2019
ROAM 提出了一种在计算图级别上操作,以得到内存有效的执行计划,包括优化的运算符顺序和张量内存布局,用于模型。ROAM 相对于 Pytorch 和两种最新方法能够显著降低 35.7%、13.3% 和 27.2% 的内存需求并达到了惊人的 53.7 倍加速。
Oct, 2023
这篇论文介绍了 SmartMem,一个综合的框架,通过智能选择布局和实施操作,消除了大多数布局变换,并开发出适用于移动设备常见的 2.5 维内存的高效内存布局。实验结果表明,SmartMem 在 18 个不同神经网络上的移动设备上性能优于 5 个最先进的 DNN 执行框架,包括卷积神经网络、具有局部和全局注意力的 Transformer 以及 LLMs。特别是,与 DNNFusion 相比,SmartMem 的平均加速比为 2.8 倍,并且在平均值上优于 TVM 和 MNN,速度提高了 6.9 倍和 7.9 倍。
Apr, 2024
通过一个名为 COSMA 的优化框架,我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。
Nov, 2023
POET 算法可以实现在边缘设备上训练大型神经网络,同时减少能耗并不修改反向传播的数学正确性。在嵌入式设备的内存限制下,使用 POET 可以比当前边缘训练方法更节能地对 ResNet-18 和 BERT 进行微调。
Jul, 2022
本文研究了深度学习推荐模型中嵌入表的内存容量问题并提出了 Tensor Train 分解的解决方案。通过优化成熟度更低的 TT-Rec 及其核心部件 TT-EmbeddingBag,它在 Kaggle 和 Terabyte 数据集上均实现了 117 倍和 112 倍的模型大小压缩,并且没有任何准确性或训练时间开销。
Jan, 2021
SmartExchange 是一种算法 - 硬件协同设计框架,将高成本的存储 / 访问内存与低成本的计算交换,用于深度神经网络的能量高效推理。该算法通过强制一种特殊的 DNN 权重结构,成功将稀疏化、分解和量化三种主流模型压缩思想集成进一个统一框架中,最终得到的稀疏、易于量化的 DNN 具有极低的能耗和存储空间需求。此外,该研究还设计了一个专用加速器,可充分利用 SmartExchange 所强制的权重,改进深度神经网络的能效和延迟表现。
May, 2020
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021