硬件感知机器学习:建模与优化
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
本研究提出基于稀疏多项式回归的逐层预测框架NeuralPower,以准确预测在任何GPU平台上部署的卷积神经网络的能耗和运行时间。同时,我们还提出了“能耗 - 精度比”(EPR)指标,以帮助机器学习者选择更能平衡能耗和预测准确度的CNN架构。实验结果表明,该框架可以提高预测精度高达68.5%,且可以在不同GPU平台和深度学习软件工具上得到验证。
Oct, 2017
本文总结了机器学习中的实际需求和挑战,重点介绍了深度神经网络的三种资源效率技术:量化神经网络,网络剪枝和结构效率,以及它们在诸如CPU,GPU和FPGA等嵌入式系统中的应用和实验结果。
Jan, 2020
本文提出了一种差分映射方案,以提高ReRAM的容错性,实现无需大规模优化的负载裁剪技术,从而在代表性DNN任务中容忍几乎高达一个数量级的故障率,而不需要额外的硬件成本。
Jun, 2021
本文提出基于底层晶体管操作的方法来研究深度学习中非线性激活函数和神经网络结构对能量消耗的影响,实验证明该方法可以高度准确地预测深度学习模型的能量消耗。
May, 2022
深度神经网络的加速和优化在资源有限的设备上是具有挑战性的,这篇论文结合了机器学习和系统技术,在Deep Learning Acceleration Stack (DLAS)中演示了如何通过整合不同层面的改进技术来提高加速效果,并强调了由于参数调整引起的DLAS各层之间的相互影响。研究发现,模型大小、准确性和推理时间之间并没有必然的关联,压缩技术的加速效果也受具体硬件平台的影响,而编译器自动调优可能会改变最佳算法的选择,因此需要进行协同设计来进一步优化加速深度学习的解决方案。
Nov, 2023
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低39%,平均精度损失为1.7%。
Dec, 2023
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法,在相似的ImageNet Top-1准确率下速度提高了2.4倍,或在相似的延迟下准确率提高了5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了19%的能量降低和9%的延迟降低,在两个并发模型部署场景中能量降低了89%,延迟降低了23%。
Jan, 2024
在过去的十年中,深度学习在自然语言处理、计算机视觉和生物医学信号处理等各个人工智能领域中占据主导地位。虽然模型的准确性有了显著提高,但将这些模型部署在移动手机和微控制器等轻量设备上受到资源限制的制约。本调查报告针对这些设备提供全面的设计指导,详细介绍了轻量模型的细致设计、模型压缩方法和硬件加速策略。本工作的主要目标是探索在不影响模型准确性的情况下克服硬件限制的方法和概念。此外,我们还探讨了未来轻量深度学习的两个值得关注的方向:TinyML和大型语言模型的部署技术。尽管这些方向无疑具有潜力,但它们也带来了重大挑战,鼓励研究未开拓的领域。
Apr, 2024