DεpS: 延迟ε-收缩以加快全面训练

Jul, 2024

DεpS: Delayed ε-Shrinking for Faster Once-For-All Training

Aditya Annavajjala, Alind Khare, Animesh Agrawal, Igor Fedorov, Hugo Latapie...

TL;DR通过推迟部分训练的全模型收缩和动态调整子网络学习率的方法（DEpS），提出了一个可扩展的训练方案，以降低卷积神经网络的训练成本并实现更好的知识蒸馏效果。DEpS 在准确性和成本方面在不同数据集上优于现有的一次性训练技术。

Abstract

cnns are increasingly deployed across different hardware, dynamic environments, and low-power embedded devices. This has led to the design and training of CNN architectures with the goal of maximizing accuracy subject to such variable deployment constraints. As the number of deployment

发现论文，激发创造

用亚线性内存成本训练深度神经网络

提出一种系统性方法来减少深度神经网络训练的内存消耗，通过算法设计，在每个小批量仅需要一个额外正向传播的计算成本的情况下，以O（sqrt（n））的内存成本训练n层网络，使用计算图分析进行自动原地操作和内存共享优化，可以在更少的计算成本下实现更多的内存节约效果。

Apr, 2016

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移/紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

大型小批量SGD扩展：改进准确性和减少训练时间的ImageNet-1K上残差网络训练

本文探讨了在petaflop级超级计算机上训练ResNet-50的挑战和新解决方案，最终展示了高达90％的扩展效率和28分钟的训练时间。同时介绍了Collapsed Ensemble(CE)技术，使得在相同的固定训练预算下，使用未修改的ResNet-50拓扑结构可以获得高达77.5％的准确率，类似于ResNet-152。

Nov, 2017

UCNN：通过重复权重利用深度神经网络中的计算

本研究旨在研究如何利用卷积神经网络（CNNs）中的重复权重来提高其能效和性能。作者提出了一种名为UCNN的CNN加速器，通过利用重复权重来重复使用CNN的子计算（例如点积），同时减少储存在DRAM中的CNN模型大小，从而达到节约能量和提高性能的目的。对三个当代CNN进行测试表明，UCNN的吞吐量/能耗比可以比Eyeriss风格稀疏优化的基线加速器提高1.2x-4x，同时UCNN处理单元相对同等基线只有17-24％的面积开销。

Apr, 2018

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

随机梯度下降的大批量大小计算效率低下

研究增加小批量大小以减少神经网络训练时间所面临的挑战，并通过广泛的经验分析得出，增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少，而这一点通常低于当前系统的容量，说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。

Nov, 2018

Once-for-All: 训练一个网络并为其专门优化以实现高效部署

我们提出了一种基于一次训练（OFA）网络的方法，通过将训练和搜索分离，支持多种网络结构并可以快速选择以减少计算成本。使用渐进式缩减算法进行高效训练，在各种边缘设备上具有优异的表现和更少的能源成本，赢得了Low Power Computer Vision Challenge的胜利。

Aug, 2019

FalconNet: 轻量级卷积神经网络的分解

通过设计LightNet总体架构、抽象出Meta Light Block、提高表示能力的空间运算器和提高初始块的通道运算器以及引入感受野的概念，我们提出了一个名为FalconNet的新颖轻量级卷积神经网络模型，实验结果表明，与现有的轻量级CNN相比，FalconNet可以用较少的参数和Flops实现更高的准确性。

Jun, 2023

LR-CNN：轻量级面向行的卷积神经网络训练以减少内存消耗

我们通过重新组织操作，将传统的一层一层的数据流规则打破，设计了一种轻量级架构，能够在不影响准确性的情况下移除大部分中间数据，有效降低内存消耗。我们特别研究了两个连续行之间的较弱依赖关系，提出了两种解决方案，并通过评估验证了其有效性。我们还验证了我们的中间数据流优化可以顺利结合现有工作以获得更好的内存减少效果。

Jan, 2024

面向资源受限环境的轻量级深度学习综述

在过去的十年中，深度学习在自然语言处理、计算机视觉和生物医学信号处理等各个人工智能领域中占据主导地位。虽然模型的准确性有了显著提高，但将这些模型部署在移动手机和微控制器等轻量设备上受到资源限制的制约。本调查报告针对这些设备提供全面的设计指导，详细介绍了轻量模型的细致设计、模型压缩方法和硬件加速策略。本工作的主要目标是探索在不影响模型准确性的情况下克服硬件限制的方法和概念。此外，我们还探讨了未来轻量深度学习的两个值得关注的方向：TinyML和大型语言模型的部署技术。尽管这些方向无疑具有潜力，但它们也带来了重大挑战，鼓励研究未开拓的领域。

Apr, 2024