daBNN: 基于 ARM 设备的二值神经网络超快推断框架
本文提出了 PhoneBit,一种针对基于 Android 的移动设备的 GPU 加速二值神经网络推断引擎,旨在通过运用区别于桌面平台的架构,提出操作级优化方案,以挖掘移动 GPU 的计算能力,实现二值卷积的高效率,从而取得了相比移动设备上其它顶尖框架更为显著的速度加速和能量效率改进。
Dec, 2019
该研究介绍了一个基于 MXNet 的开源 BNN 库 BMXNet,可在 GPU 和 CPU 模式下工作,并支持 XNOR-Networks 和 Quantized Neural Networks,旨在通过二进制运算显著减少内存大小和访问,提高 Deep Learning 模型在低功耗设备上的效率和降低能量消耗,经过广泛的实验验证了其实现的高效性和有效性。
May, 2017
该论文研究了如何在 BNN 网络中使用 padding 提高分类准确率的同时,仍然保持 1 位数据通路。作者展示了该方法的灵活性和可扩展性,并在 ADM-PCIE-8K5 平台上实现了大型 BNN 分类的快速和精确。
Jan, 2017
本研究关注二值神经网络的训练精度问题,提出了一些新的设计原则,设计出了一种新的二值神经网络体系结构 BinaryDenseNet,并在 ImageNet 数据集上获得 18.6% 和 7.6% 的精度改进。
Jun, 2019
该研究提出并评估了一种用于神经网络加速的二进制启用体系结构(BEANNA),该体系结构采用 16x16 systolic array 矩阵乘法器和可同时处理浮点数和二进制乘加的处理单元。该体系结构可以在高精度浮点数和二进制网络层之间无缝切换,并在混合网络上得到了显著的加速和能耗和内存降低。
Aug, 2021
通过使用梯度的基础方法优化 ConvNet 结构,避免像以前的方法一样枚举并分别训练个别结构,我们提出了一个可微分的神经结构搜索(DNAS)框架。FBNets 是通过 DNAS 发现的模型族,其在设计和生成自动模型方面均超过手动设计的最新模型,并在移动设备上获得更高的准确性和更低的延迟。
Dec, 2018
本文介绍了一种对二值化神经网络进行训练的方法,并在 Torch7 和 Theano 两个框架下,对 MNIST、CIFAR-10 和 SVHN 数据集进行了实验,取得了近乎领先水平的结果。通过在前向传递过程中使用二值化的权重和激活值,可以大幅减少内存消耗,用位运算取代大多数算术运算,并且使用二进制矩阵乘法 GPU 内核可以比未优化的 GPU 内核快 7 倍,而不会损失分类准确度。
Feb, 2016
在 MAX78000DNN 加速器上,我们开发了适用于边缘设备的目标检测系统 (BED),采用模型训练、量化、综合和部署的简明、有效和详细的解决方案,可以在 300 KB 微小的 DNN 模型下实现准确检测,仅需 91.9ms 的推理时间和 1.845mJ 的能量,并在实时 YouTube 上提供检测。
Feb, 2022
研究提出了一个名为 FracBNN 的新型二进制神经网络模型,利用分数激活方法,通过双精度激活方案和新型冷却器编码等技术解决旧模型在现实数据集(如 ImageNet)表现不佳的问题。FracBNN 可以实现同等规模的 MobileNetV2 的精准率,且模型尺寸减少了 2.5 倍。在嵌入式 FPGA 设备上,FracBNN 显示出实时图像分类的能力。
Dec, 2020