用最优张量再次材料化打破内存壁垒

Oct, 2019

用最优张量再次材料化打破内存壁垒

Checkmate: Breaking the Memory Wall with Optimal Tensor Rematerialization

Paras Jain, Ajay Jain, Aniruddha Nrusimha, Amir Gholami, Pieter Abbeel...

TL;DR本篇研究论文提出了 Checkmate，这是一种针对训练 DNN 进行时间和内存要求的权衡的系统，它可以在不到一小时的时间内解决最佳重构日程表，并使用这些日程表加速数百万次的训练迭代，可适用于复杂的网络结构。

Abstract

We formalize the problem of trading-off dnn training time and memory requirements as the tensor rematerialization optimization problem, a generalization of prior checkpointing strategies. We introduce

dnn training tensor rematerialization optimization problem checkmate milp solvers input sizes

发现论文，激发创造

合作：记忆不是一种商品

深度学习框架中的张量再材料化方法 Coop 通过优化张量分配和再材料化，实现了多达 2 倍的内存节省，大大减少了计算开销、搜索延迟和内存碎片化。

Nov, 2023

Moccasin：神经网络的高效张量再计算优化

本文讨论了在边缘计算设备上部署和训练神经网络所面临的诸多挑战，提出了一种名为 Moccasin 的新约束编程公式来最小化计算图的执行时间，达到内存预算的目的，并在大规模图中比最近的工作快一个数量级。

Apr, 2023

动态张量重构

本文提出一种名为动态张量再制（DTR）的在线算法，可以在有限的内存条件下实现深度学习的模型训练，具有可扩展性和普适性，支持动态模型，并且性能与静态 checkpointing 的最优解相近，实现了 PyTorch 的 DTR 原型。

Jun, 2020

Rockmate：基于 PyTorch 的高效、快速、自动化和通用重现工具

Rockmate 是一个自动化工具，从模型代码开始生成一个等效的模型，使用预定义数量的内存来控制 PyTorch DNN 模型训练时的内存需求。

Jul, 2023

深度网络的内存优化

本文介绍了 MONeT，一个自动框架，通过最小化深度神经网络的内存占用和计算负荷，优化检查点计划和各种算子的实现，实现了总体内存需求减少 3 倍的效果，能够优于所有以前的手调操作以及自动检查点。

Oct, 2020

为减少 DNN 加速器的片外数据访问而结合调度、内存分配和张量替换

通过一个名为 COSMA 的优化框架，我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式，从而最小化额外数据访问，同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。

Nov, 2023

SmartExchange: 以低成本计算为代价获取更高成本的存储 / 访问

SmartExchange 是一种算法 - 硬件协同设计框架，将高成本的存储 / 访问内存与低成本的计算交换，用于深度神经网络的能量高效推理。该算法通过强制一种特殊的 DNN 权重结构，成功将稀疏化、分解和量化三种主流模型压缩思想集成进一个统一框架中，最终得到的稀疏、易于量化的 DNN 具有极低的能耗和存储空间需求。此外，该研究还设计了一个专用加速器，可充分利用 SmartExchange 所强制的权重，改进深度神经网络的能效和延迟表现。

May, 2020

SmartMem: 移动设备上高效执行 DNN 的布局变换消除和适应性

这篇论文介绍了 SmartMem，一个综合的框架，通过智能选择布局和实施操作，消除了大多数布局变换，并开发出适用于移动设备常见的 2.5 维内存的高效内存布局。实验结果表明，SmartMem 在 18 个不同神经网络上的移动设备上性能优于 5 个最先进的 DNN 执行框架，包括卷积神经网络、具有局部和全局注意力的 Transformer 以及 LLMs。特别是，与 DNNFusion 相比，SmartMem 的平均加速比为 2.8 倍，并且在平均值上优于 TVM 和 MNN，速度提高了 6.9 倍和 7.9 倍。

Apr, 2024

Colossal-Auto：大规模模型并行化和激活检查点的统一自动化

提出一种可同时优化分布式执行和渐进式检查点规划的系统，以支持在给定硬件上最小代码更改的情况下对模型进行并行训练，并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。

Feb, 2023

在集成重溢和分页的微型设备上训练神经网络

POET 算法可以实现在边缘设备上训练大型神经网络，同时减少能耗并不修改反向传播的数学正确性。在嵌入式设备的内存限制下，使用 POET 可以比当前边缘训练方法更节能地对 ResNet-18 和 BERT 进行微调。

Jul, 2022