SpArSe: 基于稀疏性的卷积神经网络在资源受限 微控制器中的架构搜索
该论文介绍了一种名为Sparse CNN的卷积神经网络加速器体系结构,它可以通过利用CNN训练期间的网络修剪所产生的零值权重以及推理期间常见的ReLU算子产生的零值激活来提高性能和能源效率,从而减少数据传输和存储要求,并通过一种新型数据流方式有效地传递权重和激活值到乘法器阵列。该加速器在现代神经网络上可以将性能和能源效率分别提升2.7倍和2.3倍。
May, 2017
提出了一种新的框架,用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上,该框架使用FPGAs来实现和测试设计并在CIFAR10任务中提高了18%至68%的准确性。
Oct, 2019
本研究提出了MCUNet框架,该框架共同设计了高效的神经结构(TinyNAS)和轻量级推断引擎(TinyEngine),使得可以在微控制器上进行ImageNet规模的推理。
Jul, 2020
本文介绍了机器学习在资源受限的微控制器上的应用,使用神经结构搜索算法来设计满足内存、延迟和能耗限制的模型,并通过可微分神经结构搜索算法搜索出了具有低内存使用和低操作计数的 MicroNet 模型,验证该文述方法在视觉唤醒词、音频关键词检测和异常检测等领域的优越性。
Oct, 2020
提出了一种在单个标准训练时间内将用户定义的内存和延迟约束融入不同iable NAS优化方法的新方法,该方法在五个物联网相关基准测试中进行了评估,包括MLPerf Tiny套件和Tiny ImageNet,在仅一次搜索中降低了内存和延迟分别达到87.4%和54.2%,同时保证TinyML的最新手动调优深度神经网络的非劣性精度。
Oct, 2023
本文提出了TinyFormer,这是一个专门设计用于在微控制器单元上开发和部署资源高效的transformers的框架,通过SuperNAS、SparseNAS和SparseEngine的组合,实现了在MCUs上高效部署sparse models以及稀疏推理。评估结果表明,TinyFormer能够以96.1%的准确率开发有效的transformers,并在稀疏推理上相对于CMSIS-NN库实现了高达12.2倍的加速。TinyFormer将强大的transformers引入了TinyML场景,极大地扩展了深度学习应用领域。
Nov, 2023
在过去的十年中,深度学习在自然语言处理、计算机视觉和生物医学信号处理等各个人工智能领域中占据主导地位。虽然模型的准确性有了显著提高,但将这些模型部署在移动手机和微控制器等轻量设备上受到资源限制的制约。本调查报告针对这些设备提供全面的设计指导,详细介绍了轻量模型的细致设计、模型压缩方法和硬件加速策略。本工作的主要目标是探索在不影响模型准确性的情况下克服硬件限制的方法和概念。此外,我们还探讨了未来轻量深度学习的两个值得关注的方向:TinyML和大型语言模型的部署技术。尽管这些方向无疑具有潜力,但它们也带来了重大挑战,鼓励研究未开拓的领域。
Apr, 2024
本文解决了在资源受限的边缘设备(如微控制器)上进行高效神经架构搜索的问题,以前的方法未考虑硬件限制。提出的MONAS框架结合了硬件延迟估计模型和专门的性能指标,无需大量训练和评估即可识别最佳神经架构。研究表明,MONAS在搜索效率上比以往工作提高了1104倍,并且在保持相似精度的同时,微控制器上的推理速度提升了3.23倍。
Aug, 2024
本研究解决了Tiny Machine Learning(TinyML)在微控制器中推理效率和内存性能的不足问题。我们提出了一种结合近似计算和软件内核设计的新方法,通过对卷积层操作数进行解包和意义计算,采用计算跳过策略进行推理加速。实验结果表明,这种方法在保持分类准确性的同时,平均减少了21%的延迟,对于低准确率需求,则能实现更显著的优化。
Sep, 2024