一个用于设备上连续学习的 TinyML 平台,具备量化的潜在回放功能
本文提出了一种称为 “隐式回放” 的技术,该技术可以在边缘计算和嵌入式设备上有效地训练复杂的神经网络模型,并利用连续学习技术实现了较高的自适应性和自主性。我们的实验表明,结合现有的连续学习技术,隐式回放在复杂视频基准测试方面取得了最先进的性能,并且在智能手机上部署该技术可以实现几乎实时的连续学习。
Dec, 2019
在资源受限的自主系统上执行连续学习的第一个硬件加速器 TinyCL,通过执行前向传播和反向传播,并进行内存管理和控制,实现了在训练模型上的高效率和高速度。
Feb, 2024
提出了一种将连续学习和二进制神经网络结合起来的解决方案,同时在设备上进行训练并保持竞争性的性能,该方法利用二进制潜在重播激活和一种新的量化方案,显著减少了梯度计算所需的位数,实验证实了模型的准确性和对内存需求的明显减少,从而扩展了深度学习在实际场景中的应用。
Jan, 2024
本文首次探索了基于分层内存回放的连续学习在边缘设备上实现成本效益的设计空间,并提出了 Miro,一种系统运行时工具,通过动态配置连续学习系统以达到最佳成本效益,并在在线剖析与低开销的条件下适应最优数值,通过广泛的评估结果显示,Miro 在成本效益上显著优于基准系统。
Aug, 2023
LifeLearner 是一种硬件感知的元可持续学习系统,它在确保高准确性的同时,极大地优化了系统资源(降低内存、延迟和能耗),并成功部署在资源有限的嵌入式平台和物联网设备上,实现了接近最佳的可持续学习性能。
Nov, 2023
通过在芯片上存储全部功能和权重,完全消除了离线内存访问的延迟和能耗,并提出了一种应用特定的指令集,以实现敏捷开发和快速部署。实验表明,基于该模型、NCP 和指令集的 TinyML 系统在实现物体检测和识别时,取得了可观的准确度,并实现了纪录级的超低功耗,只有 160mW。
Jul, 2022
现有的连续学习解决方案只在将深度学习模型部署在低功率嵌入式 CPU 上时部分地解决了功耗、内存和计算的限制。本文提出了一种连续学习解决方案,它结合了连续学习领域的最新进展和二值神经网络(BNN)的高效性,该网络使用 1 位用于权重和激活以高效执行深度学习模型。我们提出了一种混合量化的 CWR*(一种有效的连续学习方法),它在前向和反向传播时考虑了不同的因素,以保留在梯度更新步骤和最小化延迟开销时的更高精度。选择二值网络作为基础是满足低功率设备限制的关键,据作者所知,这是首次尝试证明使用 BNN 进行设备上学习的方法。进行的实验验证了所提方法的有效性和适用性。
Aug, 2023
本研究探讨大规模预训练模型在下游持续学习场景中的作用,发现使用非参分类器可以在低计算开销下达到合理的 CL 性能;解释了更广泛数据预训练模型的表现,探讨了它们的表征相似性和迁移属性;展示了自监督预训练在下游领域上的有效性,和提高潜在 CL 效果的方向。
Apr, 2022
为了在边缘设备上连续校准量化模型以适应动态环境,本文提出了 QCore,通过对完整的训练数据进行压缩并使用小规模位翻转网络来更新参数,实现有效的连续校准。使用实际数据进行的实验研究显示 QCore 能够胜过强有力的基准方法。
Apr, 2024
Tiny Machine Learning (TinyML)是机器学习的新领域。通过将深度学习模型应用于无数物联网设备和微控制器(MCU),我们扩大了人工智能应用的范围并实现了无处不在的智能。然而,由于硬件限制,TinyML 具有一定挑战性,因为内存资源有限,难以容纳为云和移动平台设计的深度学习模型;同时,裸机设备对编译器和推理引擎的支持有限。因此,我们需要对算法和系统栈进行共同设计,以实现 TinyML。在此综述中,我们首先讨论 TinyML 的定义、挑战和应用;接下来,我们调查了最近在 MCUs 上 TinyML 和深度学习的进展;然后,我们介绍了 MCUNet,展示了如何通过系统 - 算法共同设计,在物联网设备上实现 ImageNet 规模的人工智能应用;我们还将解决方案从推理扩展到训练,并介绍了小型设备上的训练技术;最后,我们展示了这个领域的未来发展方向。今天的大型模型可能成为明天的小型模型,TinyML 的范围应该随着时间的推移而不断发展和适应。
Mar, 2024