深度神经网络的降低精度浮点数优化：在微控制器上进行设备端学习

May, 2023

深度神经网络的降低精度浮点数优化：在微控制器上进行设备端学习

Reduced Precision Floating-Point Optimization for Deep Neural Network On-Device Learning on MicroControllers

Davide Nadalini, Manuele Rusci, Luca Benini, Francesco Conti

TL;DR本文提出了一种降低 MCU 类设备上计算量的新型优化技术，使用支持矢量化 16 位浮点 SIMD 操作的 RISC-V RV32 架构，加速了前向和后向传递算法，其计算效率比现有 ODL 软件框架快两个数量级，并且在持续学习设置中比以前的 FP32 并行实现快 1.6 倍。

Abstract

Enabling on-device learning (ODL) for ultra-low-power micro-controller units (MCUs) is a key step for post-deployment adaptation and fine-tuning of Deep Neural Network (DNN) models in future TinyML applications.

on-device learning ultra-low-power micro-controller units reduced precision optimization matrix multiplication kernels deep neural networks

发现论文，激发创造

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器，通过改进硬件资源利用率，显著提高推断吞吐量和能效，并实现 16.5 倍更高的设备上学习的浮点吞吐量。

Sep, 2023

移动设备上高性能超低精度卷积

通过对 ARMv7 设备上现代深度学习工作负载所需的核心基本操作进行开源实现和全面分析，我们展示了与现有市场上的 float32 和 int8 基准相比，使用大于 4 位精度的最先进的超低精度技术可获得 4 倍至 20 倍的加速度。

Dec, 2017

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

vMCU: MCU 上的 DNN 推理的协调内存管理和内核优化

基于微控制器单元（MCU）的物联网设备为近传感器深度学习模型（DNN）提供超低功耗和无处不在的计算能力。本文提出了一种协同 MCU 上的 DNN 推断的内存管理和内核优化方法，以实现细粒度的内存管理。通过将有限内存虚拟化为一个大型内存池，每个内核将内存池划分为内核特定的段，并在计算 DNN 层时处理段的加载和存储，从而减少内存消耗。实验结果表明，相较于现有技术，所提方法在 MCU 上可以降低 RAM 使用量 12.0% 至 49.5%，能量消耗 20.6% 至 53.0%，对于完整的 DNN 评估，内存瓶颈可以降低 61.5%，从而使更多的模型能够部署在低端 MCU 上。

May, 2024

准确、无乘法的深度神经网络的硬件 - 软件协同设计

通过动态定点数编程，将深度神经网络（DNNs）从浮点数向量转换为 8 位定点数，从而实现低功耗和能耗，并增加分类准确性。

May, 2017

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

SIMD 数据流协同优化用于 CPU 上高效神经网络推理

通过使用数据流和启发式引导分析及代码生成框架，我们致力于解决在 CPU 上部署神经网络时所面临的挑战，特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明，通过保持输出在 SIMD 寄存器中的数据流，并同时最大限度地利用输入和权重重用，可以实现各种推断工作负载的最佳性能，使 8 位神经网络的速度提高 3 倍，二进制神经网络的速度提高 4.8 倍。

Oct, 2023

基于多核 MCU 和混合 FP16-INT8 后训练量化的 RNN 语音增强加速

本论文提出了一种基于回归神经网络的语音增强算法的优化方法，该方法在具有 1+8 通用 RISC-V 核心的最新型号微控制器单元上实现，采用了 LSTM 和 GRU 并行计算、低精度量化和混合精度训练等技术，取得了在保证模型精度和提高计算速度的同时，减小模型大小和降低功耗等方面的显著效果。

Oct, 2022

深度学习中的浮点数重新思考

通过优化浮点数表示方式，我们在 28 纳米芯片上实现了基于神经网络的推断和训练的更高能效性能，这种优化不需要重新训练神经网络和更改参数。

Nov, 2018

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018