利用神经网络统计量进行低功耗DNN推理
本文提出了一种名为EIE的能效推理引擎,可以对压缩的神经网络模型进行推理,并通过重复使用权重来加速结果的稀疏矩阵-向量乘法,从而实现显著的能效提升。
Feb, 2016
通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练,该方法能够在保持准确率损失相对较小 (不超过2%) 的前提下,实现能耗降低超过90%。
Oct, 2019
在边缘设备中部署深度神经网络时,我们提出了一种全新的剪枝框架,名为All-in-One,以应对动态功率管理带来的不稳定的推理速度性能,通过重新配置具有各种修剪比例的模型,以适应特定的执行频率和电压,使推理速度保持尽可能稳定。
Dec, 2022
本文提出了一种名为 EnforceSNN 的新型设计框架,通过降低 DRAM 供电电压,通过采用量化权重、高效的 DRAM 映射策略、分析神经网络容错性、开发高效的容错训练机制以及选择网络模型优化网络精度、内存和能量消耗等机制,实现在嵌入式系统中 SNN 推断的鲁棒能量效率,同时进行了实验验证。
Apr, 2023
通过使用约束性贝叶斯优化,该研究论文研究在推理阶段配置与能耗之间的关系,提出了PolyThrottle解决方案,能够在满足应用约束条件的同时,对个别硬件组件进行优化配置,从而将能耗降低了36%。
Oct, 2023
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低39%,平均精度损失为1.7%。
Dec, 2023
在边缘人工智能设备上执行深度神经网络(DNNs)可以实现各种自主移动计算应用,但是边缘人工智能设备的内存预算限制了此类应用中允许的DNN数量和复杂性。为了避免这些缺点,我们将DNN分解为块并按顺序进行交换,以使大规模DNN能够在较小的内存预算内执行。然而,在边缘人工智能设备上进行简单的交换会由于DNN开发生态系统中的冗余内存操作而导致显著延迟。为此,我们开发了SwapNet,一种用于边缘人工智能设备的高效DNN块交换中间件。我们在保持与边缘人工智能设备的深度学习框架、GPU后端和硬件架构兼容的同时,系统地消除了块交换过程中不必要的内存操作。我们通过一个多DNN调度方案进一步展示了SwapNet的实用性。在三个应用中对十一个DNN推断任务的评估结果表明,即使DNN在可用预算之外需要2.32倍至5.81倍的内存,SwapNet的延迟几乎与具有充足内存的情况相同。SwapNet的设计还为将大型语言模型(LLMs)部署到边缘人工智能设备上提供了新颖而可行的见解。
Jan, 2024
提出了一种基于自动编码器和轻量级DNN的新颖方法,用于在资源受限的边缘设备上减少推理时间和能源消耗,实验证明其在推理延迟上可以获得高达4.8倍的加速,并且在准确率方面保持相似或更高的情况下降低了79%的能源使用。
Mar, 2024
提出了一种名为 FreeML 的框架,旨在优化预训练的深度神经网络模型,以在电池无需设备上进行内存高效和能量自适应的推理,通过使用压缩技术减小模型尺寸,并引入早期终止机制以实现能量自适应推理,同时最小化内存开销。
May, 2024
本研究针对边缘计算中神经网络工作负载性能的差异,比较了CPU、CPU/GPU和CPU/NPU集成解决方案在执行线性代数和神经网络推断任务时的延迟和吞吐量。研究发现,NPU在矩阵-向量乘法和某些神经网络任务上表现优异,表明异构计算解决方案在边缘人工智能中的潜力可提高实时推断的准确性。
Sep, 2024