DeepRebirth: 在移动设备上加速深度神经网络执行

AAAIAug, 2017

DeepRebirth: 在移动设备上加速深度神经网络执行

DeepRebirth: Accelerating Deep Neural Network Execution on Mobile Devices

Dawei Li, Xiaolong Wang, Deguang Kong

TL;DR该研究通过对非张量层和张量层进行 ' 瘦身 ' 来加速深度神经网络的执行，从而达到大幅减少运行时间和占用内存的效果。实验证明，这种方法除了花费较少的计算精度带来的 0.4% 的损失率外，还在保证高准确率的前提下获得了 3 倍以上的加速。

Abstract

Deploying deep neural networks on mobile devices is a challenging task. Current model compression methods such as matrix decomposition effectively reduce the deployed model size, but still cannot satisfy

deeprebirth model compression neural networks real-time processing slimming

发现论文，激发创造

面向移动应用的快速低功耗深度卷积神经网络压缩

提出了一种简单而有效的方案 —— 单次整个网络压缩，以在移动设备上部署深度卷积神经网络，并通过对各种压缩卷积神经网络在智能手机上的性能进行测试，证明了所提方案的有效性，可获得显著的模型尺寸、运行时间和能量消耗的降低，同时只付出了小量精度损失。

Nov, 2015

在移动设备上实现 3D 卷积神经网络的实时执行

该论文提出了 RT3D 框架，将神经网络权重修剪和编译器代码生成技术无缝集成，以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速，具有适度的 1％-1.5％准确度损失。

Jul, 2020

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

AdaDeep: 一种面向应用的、自动化的深度模型压缩框架，以实现普适智能移动

AdaDeep 是一种自适应深度神经网络压缩框架，可在考虑性能和资源约束方面自动选择最合适的压缩技术和相应的压缩超参数，可以在减少 DNN 的延迟、提高能效和减少存储的同时保持准确率基本不变。

Jun, 2020

基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理

本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行，实验结果表明这些优化技术可以实现多个深度神经网络应用，如风格迁移、DNN 着色和超分辨率的实时移动执行。

Apr, 2020

动态层级革命：在移动设备上压缩循环神经网络的 DirNet

使用一种基于优化快速字典学习算法的新型模型压缩方法 DirNet，来保证在资源受限的移动设备上实现高压缩率时的最小准确性损失。通过在神经网络的不同层级上动态挖掘字典原子并调整压缩率，并且自适应地改变稀疏编码的稀疏性，该方法在语言模型和 ASR 模型上进行实验，结果表明它比之前的方法显著优越。在现有移动设备上进行评估，我们能够将原始模型的大小缩小八倍，并实现实时模型推理，同时几乎没有准确性损失。

Jun, 2018

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

移动设备上的深度学习：方法、系统和应用

本文概述了高效深度学习的方法、系统和应用，包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练，以及各种针对特定任务和空间 - 时间冗余的加速技术和系统设计。

Apr, 2022

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

移动 / 嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法，在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍，或在相似的延迟下准确率提高了 5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低，在两个并发模型部署场景中能量降低了 89%，延迟降低了 23%。

Jan, 2024