超越推断：计算机视觉DNN服务器开销的性能分析

Mar, 2024

超越推断：计算机视觉DNN服务器开销的性能分析

Beyond Inference: Performance Analysis of DNN Server Overheads for Computer Vision

Ahmed F. AbouElhamayed, Susanne Balle, Deshanand Singh, Mohamed S. Abdelfattah

TL;DR对计算机视觉的深度学习系统进行综合评估，发现数据处理和系统吞吐量是深度学习应用性能的重要瓶颈，并提出了更全面的深度学习系统设计方法。

Abstract

deep neural network (DNN) inference has become an important part of many data-center workloads. This has prompted focused efforts to design ever-faster deep learning accelerators such as GPUs and TPUs. However, an end-to-end DNN-based vision application contains more than just

发现论文，激发创造

深度神经网络模型在实践应用中的分析

本文对深度神经网络在计算机视觉领域中的重要应用指标进行全面分析，发现能耗与批次大小和架构无关，准确度和推断时间在双曲线关系中，能源约束是最大可实现准确度和模型复杂度的上限，操作次数是推断时间的可靠估计。

May, 2016

深度神经网络的有效处理：教程和概述

本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现，同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题，并提出了硬件设计、算法优化等多种解决方案以提高能效和算力，最后对比了各种深度神经网络的设计指标并展示了很多发展资源。

Mar, 2017

移动计算机视觉卷积神经网络的延迟和吞吐量特征化

本文研究了用于移动计算机视觉系统的卷积神经网络性能特征，使用不同的硬件平台和软件框架以及本地和远程计算，并指出存在重要的延迟 - 吞吐量折衷，并阐述影响性能的几个因素。

Mar, 2018

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

代表性深度神经网络结构的基准分析

本研究分析了当前用于图像识别的大多数深度神经网络 (DNN) 的性能指标，包括识别准确率、模型复杂度、计算复杂度、内存使用和推断时间等，并通过在两种不同计算机架构上的实验来测量指标，以帮助研究者们了解目前已经研究探索的解决方案及其未来发展方向，并帮助从业者选择最适合其资源限制的 DNN 架构。

Oct, 2018

边缘设备上实现深度学习

本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题，并研究了四种边缘智能场景下的深度学习方法，通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。

Oct, 2022

计算效率高的计算机视觉深度学习：综述

过去十年来，深度学习模型在各种视觉感知任务中取得了显著进展，但其高计算资源需求限制了其在实际应用中的可行性。本综述通过四个关键领域的研究，即轻量级骨干模型的发展、面向特定计算机视觉任务的专用网络架构或算法、深度学习模型压缩技术以及在硬件平台上部署高效深度网络的策略，对计算效率高的深度学习进行了广泛分析，并讨论了该领域面临的关键挑战和未来研究方向。

Aug, 2023

DLAS：深度学习加速器方案的探索与评估

深度神经网络的加速和优化在资源有限的设备上是具有挑战性的，这篇论文结合了机器学习和系统技术，在Deep Learning Acceleration Stack (DLAS)中演示了如何通过整合不同层面的改进技术来提高加速效果，并强调了由于参数调整引起的DLAS各层之间的相互影响。研究发现，模型大小、准确性和推理时间之间并没有必然的关联，压缩技术的加速效果也受具体硬件平台的影响，而编译器自动调优可能会改变最佳算法的选择，因此需要进行协同设计来进一步优化加速深度学习的解决方案。

Nov, 2023

移动/嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法，在相似的ImageNet Top-1准确率下速度提高了2.4倍，或在相似的延迟下准确率提高了5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了19%的能量降低和9%的延迟降低，在两个并发模型部署场景中能量降低了89%，延迟降低了23%。

Jan, 2024

DeepSample：基于DNN的操作准确性评估测试

通过概率抽样，研究了五种新的基于抽样的测试技术以及其他三种先进技术，以实现对深度神经网络在运行中准确度的忠实和高置信度估计，从而降低成本。

Mar, 2024