多核上的深层张量卷积
本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核,该内核可在多节点下高效执行最新的图像识别任务,使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。
Aug, 2018
本文针对移动设备上广泛使用的 ARM Cortex-A CPU,探讨了 Winograd 或 Cook-Toom 特征压缩算法在卷积神经网络上的高效实现,通过优化计算资源的利用和充分发挥 ARMv8-A NEON SIMD 指令集等策略降低了推断延迟,并在数个代表性 CNN 上进行了模型评估,结果显示相比现有的 im2row/im2col 基于优化技术,可在全网络中提高 60% 左右的性能。
Mar, 2019
该研究论文介绍了稀疏方法和 Winograd 卷积的两种正交方法,将其融合可以提高计算性能,同时提供了实现方法和算法,通过 AlexNet 在 ImageNet 数据集上进行 Winograd 系数的本地化训练和修剪,可以得到超过 90%的稀疏度,并实现 5.4 倍加速。
Feb, 2017
使用 4D 卷积神经网络,通过稀疏张量和广义稀疏卷积提供的广泛高维函数,实现了针对 3D 视频的时空感知,并通过提出的混合核和三边静态条件随机场,优化了 7D 时空色度空间中的一致性问题。实验表明,与 2D 或 2D-3D 混合方法相比,只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外,我们还表明,在处理 3D 视频时,4D 时空卷积神经网络不仅更加鲁棒,而且有时比 3D 卷积神经网络更快。
Apr, 2019
提出两种 Winograd-based 的 CNNs 的修改方法,即将 ReLU 操作移至 Winograd domain 以提高 transformed activations 的 sparsity,以及在 Winograd domain 中剪枝权重以利用静态权重稀疏性,实现在 CIFAR-10,CIFAR-100 和 ImageNet 数据集上的模型减少乘法次数分别达到 10.4 倍、6.8 倍和 10.8 倍,精度损失小于 0.1%,优于先前的基线 2.0 倍 - 3.0 倍。
Feb, 2018
本文提出了基于 im2win 的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于 cuBLAS 和 cuDNN 的卷积实现相比,内存占用少 23.1% 至 32.8%,性能提高了 3.5 倍至 155 倍。
Jun, 2023
该论文提出了 RT3D 框架,将神经网络权重修剪和编译器代码生成技术无缝集成,以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速,具有适度的 1%-1.5%准确度损失。
Jul, 2020
本文研究了深度卷积神经网络中的关键构建模块的向量化过程,旨在更好地理解和促进并行实现,作者开发和比较了六种具有不同程度向量化的实现,并提供了一个统一的 CNN 框架,同时提供了一个具有最先进速度性能的矢量化 Matlab 实现。
Jan, 2015
提出了一种类似于 Inception 的新型卷积操作 Inception depthwise convolution,将大核卷积分解为四个通道维度上的平方小核、两个正交带状核和一个恒等映射,用于构建高吞吐量且性能表现强劲的网络 InceptionNeXt,取得了与性能相当的同时大幅提升训练效率,并可作为减少碳足迹的未来架构设计基线。
Mar, 2023