嵌入式计算系统中的高效深度学习基础设施:全面调查与未来展望
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
本文总结了机器学习中的实际需求和挑战,重点介绍了深度神经网络的三种资源效率技术:量化神经网络,网络剪枝和结构效率,以及它们在诸如CPU,GPU和FPGA等嵌入式系统中的应用和实验结果。
Jan, 2020
AdaDeep是一种自适应深度神经网络压缩框架,可在考虑性能和资源约束方面自动选择最合适的压缩技术和相应的压缩超参数,可以在减少DNN的延迟、提高能效和减少存储的同时保持准确率基本不变。
Jun, 2020
介绍了一个名为TensorFlow Lite Micro (TF Micro)的开源机器学习推理框架,它采用基于解释器的独特方法,旨在解决嵌入式系统资源限制和碎片化挑战等问题。此框架具有低资源需求和最小的运行时性能开销。
Oct, 2020
本文概述了高效深度学习的方法、系统和应用,包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练,以及各种针对特定任务和空间-时间冗余的加速技术和系统设计。
Apr, 2022
本研究提出了一种用于异构嵌入式设备的轻量级且可扩展的多DNN管理器,通过利用随机空间探索和精确的性能估计器,相比其他最先进的方法,平均吞吐量提高了4.6倍。
Jul, 2023
过去十年来,深度学习模型在各种视觉感知任务中取得了显著进展,但其高计算资源需求限制了其在实际应用中的可行性。本综述通过四个关键领域的研究,即轻量级骨干模型的发展、面向特定计算机视觉任务的专用网络架构或算法、深度学习模型压缩技术以及在硬件平台上部署高效深度网络的策略,对计算效率高的深度学习进行了广泛分析,并讨论了该领域面临的关键挑战和未来研究方向。
Aug, 2023
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法,在相似的ImageNet Top-1准确率下速度提高了2.4倍,或在相似的延迟下准确率提高了5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了19%的能量降低和9%的延迟降低,在两个并发模型部署场景中能量降低了89%,延迟降低了23%。
Jan, 2024
在过去的十年中,深度学习在自然语言处理、计算机视觉和生物医学信号处理等各个人工智能领域中占据主导地位。虽然模型的准确性有了显著提高,但将这些模型部署在移动手机和微控制器等轻量设备上受到资源限制的制约。本调查报告针对这些设备提供全面的设计指导,详细介绍了轻量模型的细致设计、模型压缩方法和硬件加速策略。本工作的主要目标是探索在不影响模型准确性的情况下克服硬件限制的方法和概念。此外,我们还探讨了未来轻量深度学习的两个值得关注的方向:TinyML和大型语言模型的部署技术。尽管这些方向无疑具有潜力,但它们也带来了重大挑战,鼓励研究未开拓的领域。
Apr, 2024