超越推断:计算机视觉 DNN 服务器开销的性能分析
过去十年来,深度学习模型在各种视觉感知任务中取得了显著进展,但其高计算资源需求限制了其在实际应用中的可行性。本综述通过四个关键领域的研究,即轻量级骨干模型的发展、面向特定计算机视觉任务的专用网络架构或算法、深度学习模型压缩技术以及在硬件平台上部署高效深度网络的策略,对计算效率高的深度学习进行了广泛分析,并讨论了该领域面临的关键挑战和未来研究方向。
Aug, 2023
本文研究了用于移动计算机视觉系统的卷积神经网络性能特征,使用不同的硬件平台和软件框架以及本地和远程计算,并指出存在重要的延迟 - 吞吐量折衷,并阐述影响性能的几个因素。
Mar, 2018
本论文致力于提高神经网络的效率,提出了连续推理网络(CIN),它通过自下而上的计算重新组织和适度的架构修改来改善其在线处理效率,并采用 CIN 重构了几种广泛使用的网络架构,包括 3D CNN,ST-GCN 和 Transformer Encoders。另外,通过使用熔接适配器网络和结构修剪,本论文还达到了在使用较少的学习权重的情况下实现卓越的预测准确性的目的。
Jun, 2023
本文对深度神经网络在计算机视觉领域中的重要应用指标进行全面分析,发现能耗与批次大小和架构无关,准确度和推断时间在双曲线关系中,能源约束是最大可实现准确度和模型复杂度的上限,操作次数是推断时间的可靠估计。
May, 2016
本篇论文主要研究了如何利用适当分解卷积和激进的正则化等方法,使卷积神经网络计算效率最大化,并以 ILSVRC2012 分类挑战作为基准,报告了使用少于 2500 万参数的 5 亿乘加运算成本的网络,评估单帧评估的 top-1 误差 21.2%和 top-5 误差 5.6%的显著成果。
Dec, 2015
本文研究了如何加速深度神经网络在边缘服务器上处理多个客户端的任务,通过批处理的方式和优化调度算法,使用不同的目标函数把多个请求合并,最终提高了处理效率和性能。
Apr, 2023
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等 AI 任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
通过本文,我们调查了低功耗和能效更高的深度神经网络实现的最新进展,其提高了深度神经网络的可部署性而在不显著牺牲准确性的情况下。这些技术可以分为三个主要类别:神经网络压缩、网络架构搜索和设计、以及编译器和图优化。我们调查了卷积和变换器深度神经网络的低功耗技术,并总结了其优点、缺点和研究中的问题。
Aug, 2023
我们提出了一个新的框架,用于自动驾驶汽车中的相机重定位,利用深度神经网络 (DNN)。通过边缘云协作,我们解决了现有方法在推理期间高计算需求的问题,通过将神经网络的某些模块策略性地卸载到服务器,并评估数据帧在不同网络分割方案下的推理时间,以指导我们的卸载决策。我们的研究结果突出了服务器端卸载在基于 DNN 的自动驾驶汽车相机重定位中的重要作用,我们还讨论了数据融合的结果。最后,通过实验评估验证了我们提出的框架的有效性。
Dec, 2023