daBNN: 基于 ARM 设备的二值神经网络超快推断框架

MMAug, 2019

daBNN: 基于 ARM 设备的二值神经网络超快推断框架

daBNN: A Super Fast Inference Framework for Binary Neural Networks on ARM devices

Jianhao Zhang, Yingwei Pan, Ting Yao, He Zhao, Tao Mei

TL;DR本文提出了 daBNN 这一快速推理框架，基于二进制神经网络，通过特定的速度优化和内存优化策略，可以有效地在 ARM 设备上运行，并在单个二值卷积上比最近的 BMXNet 布尔神经网络推理框架快 7 倍到 23 倍，并在 Bi-Real Net 18 上比 BMXNet 快 6 倍。

Abstract

It is always well believed that binary neural networks (BNNs) could drastically accelerate the inference efficiency by replacing the arithmetic operations in float-valued →

binary neural networks deep neural networks inference efficiency arm devices dabnn

发现论文，激发创造

PhoneBit: 移动手机高效 GPU 加速二值神经网络推断引擎

本文提出了 PhoneBit，一种针对基于 Android 的移动设备的 GPU 加速二值神经网络推断引擎，旨在通过运用区别于桌面平台的架构，提出操作级优化方案，以挖掘移动 GPU 的计算能力，实现二值卷积的高效率，从而取得了相比移动设备上其它顶尖框架更为显著的速度加速和能量效率改进。

Dec, 2019

二进制神经网络中的数据流优化

通过引入剪裁块，减少二元神经网络层的数据宽度和内部累加器大小，同时优化批标准化层的实现和 ARM 指令集的二值化卷积，提高了推理速度和准确度。

Apr, 2023

BMXNet: 一种基于 MXNet 的开源二值神经网络实现

该研究介绍了一个基于 MXNet 的开源 BNN 库 BMXNet，可在 GPU 和 CPU 模式下工作，并支持 XNOR-Networks 和 Quantized Neural Networks，旨在通过二进制运算显著减少内存大小和访问，提高 Deep Learning 模型在低功耗设备上的效率和降低能量消耗，经过广泛的实验验证了其实现的高效性和有效性。

May, 2017

可再配置逻辑上二值神经网络的扩展

该论文研究了如何在 BNN 网络中使用 padding 提高分类准确率的同时，仍然保持 1 位数据通路。作者展示了该方法的灵活性和可扩展性，并在 ADM-PCIE-8K5 平台上实现了大型 BNN 分类的快速和精确。

Jan, 2017

回归简单：如何从头训练准确的二值神经网络？

本研究关注二值神经网络的训练精度问题，提出了一些新的设计原则，设计出了一种新的二值神经网络体系结构 BinaryDenseNet，并在 ImageNet 数据集上获得 18.6% 和 7.6% 的精度改进。

Jun, 2019

BEANNA: 用于神经网络加速的二进制能力架构

该研究提出并评估了一种用于神经网络加速的二进制启用体系结构（BEANNA），该体系结构采用 16x16 systolic array 矩阵乘法器和可同时处理浮点数和二进制乘加的处理单元。该体系结构可以在高精度浮点数和二进制网络层之间无缝切换，并在混合网络上得到了显著的加速和能耗和内存降低。

Aug, 2021

基于可微分神经架构搜索的硬件感知高效卷积神经网络设计：FBNet

通过使用梯度的基础方法优化 ConvNet 结构，避免像以前的方法一样枚举并分别训练个别结构，我们提出了一个可微分的神经结构搜索（DNAS）框架。FBNets 是通过 DNAS 发现的模型族，其在设计和生成自动模型方面均超过手动设计的最新模型，并在移动设备上获得更高的准确性和更低的延迟。

Dec, 2018

二值化神经网络

本文介绍了一种对二值化神经网络进行训练的方法，并在 Torch7 和 Theano 两个框架下，对 MNIST、CIFAR-10 和 SVHN 数据集进行了实验，取得了近乎领先水平的结果。通过在前向传递过程中使用二值化的权重和激活值，可以大幅减少内存消耗，用位运算取代大多数算术运算，并且使用二进制矩阵乘法 GPU 内核可以比未优化的 GPU 内核快 7 倍，而不会损失分类准确度。

Feb, 2016

BED：一种针对边缘设备的实时物体检测系统

在 MAX78000DNN 加速器上，我们开发了适用于边缘设备的目标检测系统 (BED)，采用模型训练、量化、综合和部署的简明、有效和详细的解决方案，可以在 300 KB 微小的 DNN 模型下实现准确检测，仅需 91.9ms 的推理时间和 1.845mJ 的能量，并在实时 YouTube 上提供检测。

Feb, 2022

FracBNN：具有分数激活的准确和 FPGA 高效二值神经网络

研究提出了一个名为 FracBNN 的新型二进制神经网络模型，利用分数激活方法，通过双精度激活方案和新型冷却器编码等技术解决旧模型在现实数据集（如 ImageNet）表现不佳的问题。FracBNN 可以实现同等规模的 MobileNetV2 的精准率，且模型尺寸减少了 2.5 倍。在嵌入式 FPGA 设备上，FracBNN 显示出实时图像分类的能力。

Dec, 2020