快速稀疏卷积神经网络
本文介绍了一种新型的基于拼贴的稀疏卷积算法,通过利用计算掩码的稀疏结构,降低了 CNN 中高分辨率计算的复杂度,并应用于基于 LiDAR 的 3D 目标检测中,最终获得了显著的速度提升而无需牺牲准确率。
Jan, 2018
为了解决网络规模增大的挑战,研究者通过网络剪枝开发了稀疏模型。然而,在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中,我们提出了一种新颖的移动推理加速框架 SparseByteNN,通过利用细粒度的内核稀疏性实现实时执行和高准确性。我们的框架包括两个部分:(a)一种细粒度的内核稀疏模式,其稀疏粒度介于结构化剪枝和非结构化剪枝之间。它为不同操作器设计了多种稀疏模式。结合我们提出的整体网络重新排列策略,该模式同时实现高压缩率和高精度。(b)与稀疏模式共同优化的推理引擎。常理认为,这种理论上的 FLOPs 减少并不能转化为真实世界的效率提升。我们旨在通过引入一族针对 ARM 和 WebAssembly 的高效稀疏内核来纠正这种误解。通过我们对稀疏原语的高效实现,我们展示了 MobileNet-v1 的稀疏版本在效率 - 准确性曲线上胜过性能强大且密集的基线模型。Qualcomm 855 的实验结果表明,对于 30%稀疏的 MobileNet-v1,SparseByteNN 相对于密集版本获得了 1.27 倍的加速,并相对于最先进的稀疏推理引擎 MNN 获得了 1.29 倍的加速,准确性略有下降,下降了 0.224%。SparseByteNN 的源代码将在此 https URL 上提供。
Oct, 2023
本文提出一种同时实现卷积神经网络的规模经济和速度提升的方法,包括一种有效的一般性稀疏 - 稠密矩阵乘法实现以及一种性能模型,可以预测不同层和不同计算机架构的稀疏水平的最佳值,该方法可在包括移动设备和超级计算机在内的各种处理器上实现 3.1-7.3 倍的卷积速度提升。
Aug, 2016
提出了一种轻量级的 Sparse Point-Voxel Convolution 模块作为基础,通过基于 SPVConv 的灵活体系结构设计空间,实现了 3D Neural Architecture Search 以搜索高效而有效的网络体系结构,并将该方法应用于自动驾驶和 3D 目标检测领域,取得了较好的实验结果。
Jul, 2020
本文介绍了 MobileNets 这一基于深度可分离卷积的轻量级深度神经网络架构,提出了利用全局超参数在时延和准确性之间平衡的方法,并在图像分类等多个领域进行了广泛实验。
Apr, 2017
介绍了新的稀疏度维度 - 粗粒度结构内的细粒度剪枝模式 (PCONV) 方法,通过结构内的细粒度稀疏性和连接性稀疏性提高了精度和计算效率,在实时推理中取得了显著的速度提升,没有准确性损失。
Sep, 2019
本研究介绍了一种使用稀疏计算的神经网络训练和构建方法,通过引入额外的门变量来执行参数选择,并在小型和大型网络上进行实验验证,证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。
Nov, 2016
本论文提出了三种无需重新训练即可进行卷积神经网络稀疏化的方法,研究表明,这些方法能够使得最先进的模型权重减少高达 73%(压缩因子为 3.7 倍),而最多只会损失 5%的 Top-5 精度,附加的微调只能获得 8%的稀疏度,这表明我们的快速稀疏化方法是有效的。
Nov, 2018
本文介绍一种利用 CNNs 去处理罕见数据的工具套件,包括直接稀疏卷积、注意力机制避免填充,以及适用于标准学习框架的反向传播算法改进,可以实现比传统密集框架更低的内存足迹和计算时间。
Jan, 2018
本文提出一种基于稀疏矩阵的计算优化方法,通过对深度学习应用中的稀疏矩阵进行深入研究,开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核,实现了神经网络模型的加速和内存节省。
Jun, 2020