通过迁移学习实现移动计算机视觉的高效硬件 FixyNN

Feb, 2019

通过迁移学习实现移动计算机视觉的高效硬件 FixyNN

FixyNN: Efficient Hardware for Mobile Computer Vision via Transfer Learning

Paul N. Whatmough, Chuteng Zhou, Patrick Hansen, Shreyas Kolala Venkataramanaiah, Jae-sun Seo...

TL;DR本文介绍一种名称为 FixyNN 的方案，采用固定权重的特征提取器和传统可编程 CNN 加速器相结合，在保证高准确率的前提下实现能耗控制

Abstract

The computational demands of computer vision tasks based on state-of-the-art Convolutional Neural Network (cnn) image classification far exceed the energy budgets of mobile devices. This paper proposes

computer vision cnn fixynn energy efficiency transfer learning

发现论文，激发创造

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在 1.2V 下实现 1510 GOp/s 的运算，且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

用于 FPGA 实时视频处理的定点卷积神经网络

该论文提出了一种用于实际任务的神经网络结构，用于图像识别，它通过减少参数的数量，使用固定点算术，将权重存储在块、移位寄存器和可调卷积块中，并提供适应现有数据集以解决不同任务的方法，可以在廉价 FPGA 上实现实时视频处理。

Aug, 2018

移动设备上的量化卷积神经网络

该研究提出了一种名为量化卷积神经网络的模型，旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵，实现计算效率的提升和存储内存开销的降低，相对于非量化模型，该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩，仅有 1% 左右的分类准确率损失，并且甚至可以在移动设备上在一秒内精准分类照片。

Dec, 2015

FINN: 快速可伸缩二值神经网络推理框架

本文介绍 FINN，一种用于构建快速、灵活的 FPGA 加速器的框架，该框架使用灵活的异构流式架构，并利用一组优化，将二值化神经网络映射到硬件上，从而实现完全连接、卷积和池化层，同时满足用户提供的吞吐量要求。在低于 25W 的总系统功率下，该平台在 MNIST 数据集上表现出高达 1230 万次图像分类每秒，0.31 微秒的延迟和 95.8％的准确率，在 CIFAR-10 和 SVHN 数据集上表现出 21906 次和 283 微秒的延迟、80.1％和 94.9％的准确率，这是目前这些基准测试中报道的最快的分类率。

Dec, 2016

CBinfer: 基于变化进行的卷积神经网络视频推断

本论文提出一种新的算法，利用像素变化的时空稀疏性，对静态摄像机录制的视频数据进行卷积神经网络的基于变化的评估，从而实现本地视频数据的处理，其速度比 cuDNN 基准测试平均快 8.6 倍，精度损失不到 0.1％，不需要对网络进行重新训练，而能源效率可达 328 GOp /s/ W。

Apr, 2017

带二值神经网络的迁移学习

本文提出了一种基于转移学习的架构，首先在 Imagenet 上训练二元网络，然后重新训练网络的部分部分用于不同的任务，同时保持网络的大部分部分固定。

Nov, 2017

用于物联网的可重构流式深度卷积神经网络加速器

该研究提出了一种流式硬件加速器，通过避免不必要的数据移动和独特的滤波器分解技术，优化了能源效率，并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能，进而实现了吞吐量的提高和较高的能效比，可在智能物联网设备中应用。

Jul, 2017

通过即时权重生成在 CNN 引擎中缓解内存瓶颈效应

本文介绍了一种名为 unzipFPGA 的 CNN 推断系统，它通过引入权重生成模块实现了芯片上的实时权重生成，为小容量内存限制的层提供了更好的支持；此外，还介绍了一种自动化硬件感知的方法，将权重生成机制与目标 CNN 设备进行搭配，从而实现了更好的准确性和性能平衡；最后，还引入了一种输入选择性处理单元（PE）设计，平衡了子优化映射层的负载。该提议的框架在相同功耗约束下，与高度优化的 GPU 设计相比，实现了平均 2.57 倍的性能效率提升，同时在各种最先进的基于 FPGA 的 CNN 加速器中具有高达 3.94 倍的性能密度。

Jul, 2023

卷积神经网络的硬件逼近

本文提出 Ristretto，一种模型逼近框架，可以使用固定点算术和表示来压缩卷积和全连接层的权重和输出，并且可以通过微调将结果定制到具体的硬件设备，成功地将 CaffeNet 和 SqueezeNet 压缩到 8 位。

Apr, 2016

SBCFormer：单板计算机上能以每秒 1 帧速度进行全尺寸 ImageNet 分类的轻量级网络

SBCFormer 是一种 CNN-ViT 混合网络，通过在低端 CPU 上实现高准确性和快速计算，为树莓派 4 型号 B 的 ARM-Cortex A72 CPU 提供了以往无法达到的每秒 1.0 帧速度下的约 80% 的 ImageNet-1K 前 1 准确性。

Nov, 2023