TinyTrain:极端边缘的深度神经网络训练
本研究提出了 MCUNet 框架,该框架共同设计了高效的神经结构(TinyNAS)和轻量级推断引擎(TinyEngine),使得可以在微控制器上进行 ImageNet 规模的推理。
Jul, 2020
Tiny Machine Learning (TinyML)是机器学习的新领域。通过将深度学习模型应用于无数物联网设备和微控制器(MCU),我们扩大了人工智能应用的范围并实现了无处不在的智能。然而,由于硬件限制,TinyML 具有一定挑战性,因为内存资源有限,难以容纳为云和移动平台设计的深度学习模型;同时,裸机设备对编译器和推理引擎的支持有限。因此,我们需要对算法和系统栈进行共同设计,以实现 TinyML。在此综述中,我们首先讨论 TinyML 的定义、挑战和应用;接下来,我们调查了最近在 MCUs 上 TinyML 和深度学习的进展;然后,我们介绍了 MCUNet,展示了如何通过系统 - 算法共同设计,在物联网设备上实现 ImageNet 规模的人工智能应用;我们还将解决方案从推理扩展到训练,并介绍了小型设备上的训练技术;最后,我们展示了这个领域的未来发展方向。今天的大型模型可能成为明天的小型模型,TinyML 的范围应该随着时间的推移而不断发展和适应。
Mar, 2024
本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法,该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本,特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。
Mar, 2022
本文提出了一种新的梯度过滤方法,使用少量的独特元素创建特殊的结构来显著减少反向传播期间的计算复杂度和内存消耗,从而实现了设备端深度学习模型训练,显著提高了速度和节省了能源。
Jan, 2023
提出了 SCoTTi(Save Computation at Training Time)自适应框架,通过优化阈值参数来减少训练过程中的神经元更新次数,从而降低内存和计算资源使用量。在各种常用基准和流行架构(包括 ResNets,MobileNet 和 Swin-T)上,我们的方法在计算资源节约方面表现出优越的性能。
Dec, 2023
本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架,通过优化库和新的推理调度方案,在多个 MCU 平台上实现了更低的延迟和能量消耗。
Apr, 2024
由于人工智能算法的普及和应用,能源使用和二氧化碳排放显著增加,加剧了对气候变化的担忧。为了解决这一问题,我们需要开发可持续的人工智能解决方案,特别是能耗低、适用于环境资源有限的嵌入式系统。本文介绍了 TinyM^2Net-V3,它是一个处理多模态数据的系统,设计了深度神经网络模型,并采用知识蒸馏和低位宽量化等模型压缩技术,以适应较低级别的内存层次,降低延迟,提高能源效率。我们通过 COVID-19 的咳嗽、语音和呼吸音频检测以及深度和热图像姿势分类两个多模态案例研究对 TinyM^2Net-V3 进行了评估,取得了 92.95% 和 90.7% 的准确率。我们的小型机器学习模型在资源有限的硬件上展示出低延迟和很高的功耗效率。
May, 2024
通过 FlexTrain 框架,我们能够高效部署深度学习模型到异构设备上,从而节省训练时间和能源消耗,并且在联合学习场景下优于标准联合学习基准模型。
Oct, 2023