动态张量重构

Jun, 2020

Dynamic Tensor Rematerialization

Marisa Kirisame, Steven Lyubomirsky, Altan Haan, Jennifer Brennan, Mike He...

TL;DR本文提出一种名为动态张量再制（DTR）的在线算法，可以在有限的内存条件下实现深度学习的模型训练，具有可扩展性和普适性，支持动态模型，并且性能与静态 checkpointing 的最优解相近，实现了 PyTorch 的 DTR 原型。

Abstract

checkpointing enables the training of deep learning models under restricted memory budgets by freeing intermediate activations from memory and recomputing them on demand. Current →

checkpointing deep learning dynamic tensor rematerialization memory management pytorch

发现论文，激发创造

合作：记忆不是一种商品

深度学习框架中的张量再材料化方法 Coop 通过优化张量分配和再材料化，实现了多达 2 倍的内存节省，大大减少了计算开销、搜索延迟和内存碎片化。

Nov, 2023

用最优张量再次材料化打破内存壁垒

本篇研究论文提出了 Checkmate，这是一种针对训练 DNN 进行时间和内存要求的权衡的系统，它可以在不到一小时的时间内解决最佳重构日程表，并使用这些日程表加速数百万次的训练迭代，可适用于复杂的网络结构。

Oct, 2019

动态稀疏重参数化实现深度卷积神经网络的参数高效训练

介绍了一种新的动态稀疏重参数化方法，能够更有效地训练深度卷积神经网络，在固定的参数预算下达到最佳准确率，并发现在训练过程中探索结构自由度比增加额外的参数对网络性能的提升更为有效。

Feb, 2019

Moccasin：神经网络的高效张量再计算优化

本文讨论了在边缘计算设备上部署和训练神经网络所面临的诸多挑战，提出了一种名为 Moccasin 的新约束编程公式来最小化计算图的执行时间，达到内存预算的目的，并在大规模图中比最近的工作快一个数量级。

Apr, 2023

动态模型剪枝与反馈

提出一种新的模型压缩方法，通过允许稀疏模式的动态分配和合理使用反馈信号使得模型可以在单一训练过程中生成一个高性能的稀疏模型，且其性能超越了现有的所有修剪方案生成的模型，在 CIFAR-10 和 ImageNet 数据集上进行验证。

Jun, 2020

高效使用内存的时间反向传播

我们提出了一种新方法来降低通过时间反向传播算法在培训循环神经网络时的内存消耗，这种方法使用动态规划来平衡中间结果的缓存和重新计算之间的折衷，并最小化计算成本。

Jun, 2016

DynaQuant: 动态量化深度学习训练检查点的压缩

通过提出动态量化压缩算法 DynaQuant，实现 DL 工作负载的检查点压缩，有效减少了检查点存储开销，并能够在保持模型准确性的前提下最大化压缩比，从而在传输学习等应用中实现了数量级的提升。

Jun, 2023

深度网络的内存优化

本文介绍了 MONeT，一个自动框架，通过最小化深度神经网络的内存占用和计算负荷，优化检查点计划和各种算子的实现，实现了总体内存需求减少 3 倍的效果，能够优于所有以前的手调操作以及自动检查点。

Oct, 2020

TT-Rec: 深度学习推荐模型的张量列车压缩

本文研究了深度学习推荐模型中嵌入表的内存容量问题并提出了 Tensor Train 分解的解决方案。通过优化成熟度更低的 TT-Rec 及其核心部件 TT-EmbeddingBag，它在 Kaggle 和 Terabyte 数据集上均实现了 117 倍和 112 倍的模型大小压缩，并且没有任何准确性或训练时间开销。

Jan, 2021

DOCTOR：面向自校正光子张量加速器的动态芯片矫正技术

光子计算在加速计算密集型人工智能 (AI) 工作负载方面已经成为一种有前途的解决方案，在资源有限、延迟敏感的边缘计算环境中，具有无与伦比的速度和能量效率。然而，现场噪声和环境变化给模拟光子张量加速器的部署带来了可靠性挑战。本文首次提出了一种轻量级的动态芯片内纠正框架 (DOCTOR)，针对时间漂移噪声提供自适应的、就地校准的准确恢复。DOCTOR 框架通过自适应探测智能监视芯片状态，并在必要时进行快速的就地、无训练的校准来恢复准确性。我们还提出了一种基于变异感知的架构重映射策略，以避免在有噪声的设备上执行关键任务。大量实验表明，与现有芯片内训练方法相比，我们提出的框架可以在漂移变化下保证持续性能，在准确性上提高 34%，开销降低 2-3 个量级。

Mar, 2024