通过迁移学习实现移动计算机视觉的高效硬件 FixyNN
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
该论文提出了一种用于实际任务的神经网络结构,用于图像识别,它通过减少参数的数量,使用固定点算术,将权重存储在块、移位寄存器和可调卷积块中,并提供适应现有数据集以解决不同任务的方法,可以在廉价 FPGA 上实现实时视频处理。
Aug, 2018
该研究提出了一种名为量化卷积神经网络的模型,旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵,实现计算效率的提升和存储内存开销的降低,相对于非量化模型,该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩,仅有 1% 左右的分类准确率损失,并且甚至可以在移动设备上在一秒内精准分类照片。
Dec, 2015
本文介绍 FINN,一种用于构建快速、灵活的 FPGA 加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于 25W 的总系统功率下,该平台在 MNIST 数据集上表现出高达 1230 万次图像分类每秒,0.31 微秒的延迟和 95.8%的准确率,在 CIFAR-10 和 SVHN 数据集上表现出 21906 次和 283 微秒的延迟、80.1%和 94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
本论文提出一种新的算法,利用像素变化的时空稀疏性,对静态摄像机录制的视频数据进行卷积神经网络的基于变化的评估,从而实现本地视频数据的处理,其速度比 cuDNN 基准测试平均快 8.6 倍,精度损失不到 0.1%,不需要对网络进行重新训练,而能源效率可达 328 GOp /s/ W。
Apr, 2017
该研究提出了一种流式硬件加速器,通过避免不必要的数据移动和独特的滤波器分解技术,优化了能源效率,并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能,进而实现了吞吐量的提高和较高的能效比,可在智能物联网设备中应用。
Jul, 2017
本文介绍了一种名为 unzipFPGA 的 CNN 推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标 CNN 设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的 GPU 设计相比,实现了平均 2.57 倍的性能效率提升,同时在各种最先进的基于 FPGA 的 CNN 加速器中具有高达 3.94 倍的性能密度。
Jul, 2023
本文提出 Ristretto,一种模型逼近框架,可以使用固定点算术和表示来压缩卷积和全连接层的权重和输出,并且可以通过微调将结果定制到具体的硬件设备,成功地将 CaffeNet 和 SqueezeNet 压缩到 8 位。
Apr, 2016
SBCFormer 是一种 CNN-ViT 混合网络,通过在低端 CPU 上实现高准确性和快速计算,为树莓派 4 型号 B 的 ARM-Cortex A72 CPU 提供了以往无法达到的每秒 1.0 帧速度下的约 80% 的 ImageNet-1K 前 1 准确性。
Nov, 2023