HALOC: 针对紧凑型神经网络的硬件感知自动低秩压缩
通过使用低秩分解在网络层上应用压缩,本研究旨在研究压缩神经网络以提高训练和推理速度。我们的研究证明,为了加速,压缩方法应该考虑底层硬件,并进行分析以选择要压缩的层。通过对 ResNet50 的压缩和在全图像数据集 ImageNet-ILSVRC2012 上的训练的案例研究,我们展示了我们的方法的优势。我们在两个不同的硬件系统 Nvidia V100 和 Huawei Ascend910 上进行了测试。通过针对硬件进行压缩,Ascend910 上的训练加速度为 5.36%,Ascend310 上的推理速度为 15.79%,与原始未压缩模型相比仅有 1% 的精度下降。
Sep, 2023
本文提出了一种通过组合优化实现网络复杂度最小化以及保持精度不变的方案,利用线性近似的精度函数预测了优化后 CNN 模型的精度,并在 AlexNet 和 VGG-16 上的实验结果表明,与截断 SVD 算法相结合,我们提出的排名选择算法在推理和训练时间方面优于现有技术。
Jun, 2018
利用 LayerCollapse 方法进行适应性模型压缩,通过消除网络中的非线性并将两个连续的全连接层合并为单个线性变换,同时减少层数和参数数量,提高模型效率;引入压缩感知正则化器,根据数据集质量和模型表现压缩模型,减少过拟合;实验证明 LayerCollapse 在多个细粒度分类基准测试中实现有效的压缩和正则化,最高在训练后压缩 74% 但准确度损失最小;与知识蒸馏方法对比,在 ImageNet 数据集上计算效率提高五倍,整体准确度提高 8%。
Nov, 2023
这篇论文提出了一种用于加速 CNNs 的基于张量分解的技术,并且发现使用降秩限制的 CNNs 除了速度更快之外,有时候性能也表现更好,在进行了对比测试后,尤其是对于 VGG-16 模型,在性能无损的同时,前向传播时间可以缩短一半,从而证明低秩张量分解在加速大型 CNNs 方面是非常有用的工具。
Nov, 2015
在此研究中,我们展示了 Low-Rank Adaptation 方法在从头开始训练小尺寸视觉模型的联邦学习中的应用,通过提出一种聚合不可知方法 FLoCoRA,我们证明该方法能够减少通信成本 4.8 倍,并且对于具有 ResNet-8 模型的 CIFAR-10 分类任务的准确度损失小于 1%。同时,我们还展示了通过引入仿射量化方案扩展该方法,将通信成本缩减 18.6 倍,与标准方法相比,对于 ResNet-18 模型的测试仍然保持不到 1% 的准确度损失。我们的研究在消息大小减小方面提供了一个强有力的基准,甚至与传统的模型压缩方法相比,同时还减少了由于低秩适应所需的训练内存。
Jun, 2024
本文提出了一种新颖的全局压缩深度神经网络框架,通过使用低秩分解的方法在达到所需的整体压缩率的同时,对每层进行全面分析确定最佳的每层压缩比率,并利用等奇特展开定理和最优化算法来得到我们的解决方案。我们的实验表明,我们的方法在各种网络和数据集上优于现有的低秩压缩方法。
Jul, 2021
本文介绍了一种名为 Decomposable-Net 的深度神经网络压缩方法,通过奇异值分解和调整矩阵秩,允许灵活改变模型大小,而无需进行微调,能够在多种模型大小下提高模型性能。
Oct, 2019
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文提出了一种名为 AutoLC 的方法,它将手动设计的 CNN 和自动设计的 CNN 的优点相结合,采用分层搜索空间和轻量级编码器策略,成功地解决了高分辨率遥感图像的土地覆盖分类问题,并在实验中取得了比其他方法更好的效果。
May, 2022
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低 1.4-1.95 倍,能量消耗降低 1.9 倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018