动态张量重构
本篇研究论文提出了 Checkmate,这是一种针对训练 DNN 进行时间和内存要求的权衡的系统,它可以在不到一小时的时间内解决最佳重构日程表,并使用这些日程表加速数百万次的训练迭代,可适用于复杂的网络结构。
Oct, 2019
介绍了一种新的动态稀疏重参数化方法,能够更有效地训练深度卷积神经网络,在固定的参数预算下达到最佳准确率,并发现在训练过程中探索结构自由度比增加额外的参数对网络性能的提升更为有效。
Feb, 2019
本文讨论了在边缘计算设备上部署和训练神经网络所面临的诸多挑战,提出了一种名为 Moccasin 的新约束编程公式来最小化计算图的执行时间,达到内存预算的目的,并在大规模图中比最近的工作快一个数量级。
Apr, 2023
提出一种新的模型压缩方法,通过允许稀疏模式的动态分配和合理使用反馈信号使得模型可以在单一训练过程中生成一个高性能的稀疏模型,且其性能超越了现有的所有修剪方案生成的模型,在 CIFAR-10 和 ImageNet 数据集上进行验证。
Jun, 2020
我们提出了一种新方法来降低通过时间反向传播算法在培训循环神经网络时的内存消耗,这种方法使用动态规划来平衡中间结果的缓存和重新计算之间的折衷,并最小化计算成本。
Jun, 2016
通过提出动态量化压缩算法 DynaQuant,实现 DL 工作负载的检查点压缩,有效减少了检查点存储开销,并能够在保持模型准确性的前提下最大化压缩比,从而在传输学习等应用中实现了数量级的提升。
Jun, 2023
本文介绍了 MONeT,一个自动框架,通过最小化深度神经网络的内存占用和计算负荷,优化检查点计划和各种算子的实现,实现了总体内存需求减少 3 倍的效果,能够优于所有以前的手调操作以及自动检查点。
Oct, 2020
本文研究了深度学习推荐模型中嵌入表的内存容量问题并提出了 Tensor Train 分解的解决方案。通过优化成熟度更低的 TT-Rec 及其核心部件 TT-EmbeddingBag,它在 Kaggle 和 Terabyte 数据集上均实现了 117 倍和 112 倍的模型大小压缩,并且没有任何准确性或训练时间开销。
Jan, 2021
光子计算在加速计算密集型人工智能 (AI) 工作负载方面已经成为一种有前途的解决方案,在资源有限、延迟敏感的边缘计算环境中,具有无与伦比的速度和能量效率。然而,现场噪声和环境变化给模拟光子张量加速器的部署带来了可靠性挑战。本文首次提出了一种轻量级的动态芯片内纠正框架 (DOCTOR),针对时间漂移噪声提供自适应的、就地校准的准确恢复。DOCTOR 框架通过自适应探测智能监视芯片状态,并在必要时进行快速的就地、无训练的校准来恢复准确性。我们还提出了一种基于变异感知的架构重映射策略,以避免在有噪声的设备上执行关键任务。大量实验表明,与现有芯片内训练方法相比,我们提出的框架可以在漂移变化下保证持续性能,在准确性上提高 34%,开销降低 2-3 个量级。
Mar, 2024