移动设备上高性能超低精度卷积
该研究论文通过在 ARM 设备上实现高度优化的超低位卷积运算符,结合 Deeplite Runtime 编译,调优和推断框架,将深度学习模型以超低位表示轻松部署在物美价廉的硬件上,实现边缘设备的深度学习应用加速。
Sep, 2023
介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型,并在 Arm-based 平台上部署超低比特量化模型。使用向量化,并行化和瓦片化高效实现,这些实现与 TensorFlow Lite 比较,分类和检测模型的速度提高了 2 倍和 2.2 倍,与 ONNX Runtime 比较,分类和检测模型的速度提高了 5 倍和 3.2 倍。
Jul, 2022
该研究提出了一种名为量化卷积神经网络的模型,旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵,实现计算效率的提升和存储内存开销的降低,相对于非量化模型,该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩,仅有 1% 左右的分类准确率损失,并且甚至可以在移动设备上在一秒内精准分类照片。
Dec, 2015
本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行,实验结果表明这些优化技术可以实现多个深度神经网络应用,如风格迁移、DNN 着色和超分辨率的实时移动执行。
Apr, 2020
介绍了一个基于 GPU 加速的开源库 CNNdroid,可以在 Android 设备上执行训练好的深度卷积神经网络,并实现了高达 60 倍的加速和 130 倍的能量节省。
Nov, 2015
本文介绍了如何利用手机上普遍存在的 GPU 加速器,在 Android 和 iOS 设备上实现深度神经网络的实时推断,并将其集成到开源项目 TensorFlow Lite 中。
Jul, 2019
本研究旨在通过采用极低精度(2 位)权重网络,并在零值上进行操作跳过以提高计算效率和性能,以在低精度网络下获得更高精度。实验结果表明,与全精度网络相比,在并非影响相似准确度的情况下,计算需求降低了约 3 倍,且在 Imagenet 物体分类挑战上取得了最高报道准确度。为了充分利用低精度网络优势,研究小组开发了一种深度学习加速器核心 dLAC,可实现每平方毫米单精度浮点运算的 TFLOP 当量,半精度时可达到每平方毫米的 2 个 TFLOP。
Oct, 2016
通过添加新的数据类型到 Caffe,增加了现有商品电子设备上深度学习推断速度,在某些设备上,内存使用量可以降低到 3.29 倍,推断速度可以提高到 3.01 倍,并提出了一种混合专家模型的变化来增加图像分类中的推断速度。
Sep, 2022
本文提出了一种降低 MCU 类设备上计算量的新型优化技术,使用支持矢量化 16 位浮点 SIMD 操作的 RISC-V RV32 架构,加速了前向和后向传递算法,其计算效率比现有 ODL 软件框架快两个数量级,并且在持续学习设置中比以前的 FP32 并行实现快 1.6 倍。
May, 2023