极弱设备上的实时神经网络推断：可解释人工智能的灵活卸载

Dec, 2023

极弱设备上的实时神经网络推断：可解释人工智能的灵活卸载

Real-time Neural Network Inference on Extremely Weak Devices: Agile Offloading with Explainable AI

Kai Huang, Wei Gao

TL;DR通过利用 `eXplainable AI` 技术，在训练阶段明确强制规定特征的稀疏性，并最小化在线计算和通信开销，以实现弱嵌入式设备上的实时神经网络推断。

Abstract

With the wide adoption of ai applications, there is a pressing need of enabling real-time neural network (NN) inference on small embedded devices, but deploying NNs and achieving high performance of NN inference

ai applications neural network inference embedded devices agilenn feature sparsity

发现论文，激发创造

通过深度神经网络的自适应模型分割辅助校准边缘推断卸载

该研究针对移动设备上的深度神经网络的推断，使用自适应模型划分的方法解决了通信延迟的问题，并对准确性进行了预测和校准，从而实现更可靠的推断决策。

Oct, 2020

边缘人工智能：通过边缘计算加速深度神经网络推理

该论文提出了一种基于边缘计算的 DNN 协同推理框架 Edgent，通过 DNN 分区和权衡设备的云资源和临近边缘资源来协调实时的 DNN 推理，进而降低计算延迟，实现低延迟边缘智能处理。

Oct, 2019

边缘智能：设备 - 边缘协同，按需深度学习模型协同推理

提出了 Edgent，这是一种协作和按需的 DNN 合作推理框架，其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能，并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。

Jun, 2018

边缘设备上实现深度学习

本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题，并研究了四种边缘智能场景下的深度学习方法，通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。

Oct, 2022

资源受限边缘推理中的通信计算权衡

本文提出了一种有效的边缘计算推理方法，并探讨了在设备模型的计算成本和中间特征的通信成本之间进行的关键权衡。通过模型拆分点选择、通信感知模型压缩和任务导向的中间特征编码，提出了一个三步框架来有效地进行推理，实验结果表明，与基准方法相比，我们的提出的框架具有更好的权衡，可以显著减少推理延迟。

Jun, 2020

On-Device Learning: 基于神经网络的现场可训练边缘 AI

本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法，该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本，特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。

Mar, 2022

面向协作智能友好的深度学习架构

本文提出了一种新的协作智能友好型架构，通过将移动设备上计算的中间特征卸载到云端以降低需要发送到云端的数据量，使得在 ResNet-50 模型上，相比现有的云端计算方法，端到端延迟和移动能耗分别平均提高了 53 倍和 68 倍，而精度损失不到 2%。

Feb, 2019

使用移动 GPU 进行设备端神经网络推断

本文介绍了如何利用手机上普遍存在的 GPU 加速器，在 Android 和 iOS 设备上实现深度神经网络的实时推断，并将其集成到开源项目 TensorFlow Lite 中。

Jul, 2019

面向云边协同推断的神经网络自动调谐量化框架

本论文阐述了在深度神经网络方面的云端和边缘协作推断在量化方面的优势，提出了一种基于自动调谐的神经网络量化框架，利用 ImageNet 数据集进行了混合精度合作推理的有效性研究，实验结果显示，该框架可以生成合理的网络分割，并减小移动设备上的存储消耗，同时能够保持较高的准确率。

Dec, 2018

深度神经网络在微控制器上的量化与部署

本文介绍了一个新的深度神经网络量化和部署的框架，MicroAI，并研究了在低功耗 32 位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集 (UCI-HAR、Spoken MNIST 和 GTSRB) 的评估，与两种已有的嵌入式推理引擎 (TensorFlow Lite for Microcontrollers 和 STM32CubeAI) 的比较和在 ARM Cortex-M4F 微控制器 (Ambiq Apollo3 和 STM32L452RE) 上的验证，证明了 MicroAI 具有更好的内存和功耗效率。

May, 2021