基于 SIMD 架构的高性能深度学习卷积解剖学

Aug, 2018

基于 SIMD 架构的高性能深度学习卷积解剖学

Anatomy Of High-Performance Deep Learning Convolutions On SIMD Architectures

Evangelos Georganas, Sasikanth Avancha, Kunal Banerjee, Dhiraj Kalamkar, Greg Henry...

TL;DR本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核，该内核可在多节点下高效执行最新的图像识别任务，使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。

Abstract

convolution layers are prevalent in many classes of deep neural networks, including Convolutional Neural Networks (cnns) which provide state-of-the-art results for tasks like image recognition, neural machine tra

convolution layers cnns direct convolution x86 architectures jit-optimized kernels

发现论文，激发创造

高性能零内存开销直接卷积

本篇论文研究并证明了，当直接卷积实现正确时，消除了所有的内存开销，且效率在传统和嵌入式 CPU 架构上比现有的高性能卷积实现提高了 10% 到 400% 不等，并可以更好地扩展性能，即增加线程数时的性能下降更少。

Sep, 2018

多核上的深层张量卷积

通过扩展和优化快速 Winograd 级卷积算法，我们在 CPU 硬件上最大化 CPU 利用率及多核可伸缩性，处理了视频和体积图像分析中的空时特征，并证明了与之前的最先进技术相比，吞吐量提高了 5 到 25 倍。

Nov, 2016

嵌入式推理加速器硬件架构及深度卷积和大核卷积算法分析

该论文提出了一种硬件架构，以高灵活性处理深度卷积和常规卷积，支持不同大小的卷积核，具有比相关工作更快的速度和更少的计算和模型大小。此外，DDC 层的使用可以减少计算成本和模型大小，并提高准确性。

Apr, 2021

卷积神经网络的效率研究

通过优化卷积神经网络架构和使用融合块核心技术，实现了计算效率和准确性的提升。

Apr, 2024

关于视觉任务中深度卷积神经网络的向量化

本文研究了深度卷积神经网络中的关键构建模块的向量化过程，旨在更好地理解和促进并行实现，作者开发和比较了六种具有不同程度向量化的实现，并提供了一个统一的 CNN 框架，同时提供了一个具有最先进速度性能的矢量化 Matlab 实现。

Jan, 2015

动态卷积：卷积核的注意力机制

提出一种名为 Dynamic Convolution 的新设计，基于卷积核的注意力动态地聚合多个并行卷积核，从而增加模型复杂度，提高卷积神经网络的表示能力，有效提高 MobileNetV3-Small 模型在 ImageNet 分类任务上的精度。

Dec, 2019

HetConv: 基于异构内核的卷积神经网络

通过使用异构卷积内核，我们提出了一种新颖的深度学习架构，在减少计算量和参数数量的同时保持代表性效率，实现了在 VGG 和 ResNet 等 CNN 架构中 3 到 8 倍 FLOPs 的速度提升，并与组 / 深度卷积进行比较，证明其具有更高的准确性和更多的 FLOPs 减少。

Mar, 2019

带有卷积操作和且非卷积操作的 DNN 推理 / 训练性能分析

本文提出了一种针对深度学习加速器的性能分析框架 ——SimDIT，旨在覆盖卷积和非卷积操作，并提供详细的执行 CNN 推断和训练工作量的端到端性能统计，结果显示，在使用一个 64X64 处理阵列时，ResNet-50 训练工作量的非卷积操作占总运行时间的 59.5％。此外，通过优化可用的片外 DRAM 带宽和片上 SRAM 资源的分配，SimDIT 实现了比 ResNet-50 推理的通用静态资源分配高出 18 倍的性能提升。

Jun, 2023

深度卷积神经网络最近的架构调查

本文从深度卷积神经网络的内在分类入手，将现有研究成果归纳为七大类，即空间利用、深度、多路径、宽度、特征图利用、通道增强和注意力，同时介绍 CNN 组件的基础理解、当前挑战和应用领域。

Jan, 2019

理解深度卷积网络

这篇文章综述了深度卷积神经网络的架构，介绍了一种数学框架来分析它们的属性，以及讨论了它们的应用。

Jan, 2016