混合专家混合精度神经网络的调优

Sep, 2022

混合专家混合精度神经网络的调优

Tuning of Mixture-of-Experts Mixed-Precision Neural Networks

Fabian Tschopp

TL;DR通过添加新的数据类型到 Caffe，增加了现有商品电子设备上深度学习推断速度，在某些设备上，内存使用量可以降低到 3.29 倍，推断速度可以提高到 3.01 倍，并提出了一种混合专家模型的变化来增加图像分类中的推断速度。

Abstract

deep learning has become a useful data analysis method, however mainstream adaption in distributed computer software and embedded devices has been low so far. Often, adding deep learning inference in mainstream a

deep learning distributed computing quantized data types mixed-precision mode inference speed

发现论文，激发创造

量化卷积神经网络以用于低功耗高吞吐量推理引擎

本文提出了一种量化方案，通过在参考浮点模型上校准而不是重新训练来确定量化方案参数，从而实现了基于更高效的算术进行推理，并且在量化后的结果中，终端到终端精度可与基准模型相当。

May, 2018

自由比特：边缘上混合精度量化神经网络的延迟优化

该论文提出了一种混合精度搜索方法，该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置，以减少模型大小、延迟并保持统计准确性，该方法在 MobileNetV1 和 MobileNetV2 上进行了评估，在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低，在没有对子字节算术支持的系统上也能实现加速，同时在代表延迟的减少二进制运算次数上，我们的方法也表现出优越性。

Jul, 2023

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018

准确、无乘法的深度神经网络的硬件 - 软件协同设计

通过动态定点数编程，将深度神经网络（DNNs）从浮点数向量转换为 8 位定点数，从而实现低功耗和能耗，并增加分类准确性。

May, 2017

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

神经网络的量化和训练，用于高效的整数运算推理

本文提出了一种量化方案，通过整数运算进行推断，以提高在移动设备上的效率，并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进，在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。

Dec, 2017

混合精度神经网络综述

本文介绍了混合精度框架优化技巧的现有文献，并对常用的量化技巧进行了总结，其中部分框架运用的优化技巧为强化学习和确定性舍入，文章讨论了每种框架的优点和缺陷，并且为未来的混合精度框架提供了指导。

Aug, 2022

用于粒子探测器边缘低延迟推断的深度神经网络自动异构量化

本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法，旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要，其中资源严格限制，需要一种纳秒级的推理和降低 50 倍的资源消耗。

Jun, 2020