DeepRebirth: 在移动设备上加速深度神经网络执行
提出了一种简单而有效的方案 —— 单次整个网络压缩,以在移动设备上部署深度卷积神经网络,并通过对各种压缩卷积神经网络在智能手机上的性能进行测试,证明了所提方案的有效性,可获得显著的模型尺寸、运行时间和能量消耗的降低,同时只付出了小量精度损失。
Nov, 2015
该论文提出了 RT3D 框架,将神经网络权重修剪和编译器代码生成技术无缝集成,以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速,具有适度的 1%-1.5%准确度损失。
Jul, 2020
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
AdaDeep 是一种自适应深度神经网络压缩框架,可在考虑性能和资源约束方面自动选择最合适的压缩技术和相应的压缩超参数,可以在减少 DNN 的延迟、提高能效和减少存储的同时保持准确率基本不变。
Jun, 2020
本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行,实验结果表明这些优化技术可以实现多个深度神经网络应用,如风格迁移、DNN 着色和超分辨率的实时移动执行。
Apr, 2020
使用一种基于优化快速字典学习算法的新型模型压缩方法 DirNet,来保证在资源受限的移动设备上实现高压缩率时的最小准确性损失。通过在神经网络的不同层级上动态挖掘字典原子并调整压缩率,并且自适应地改变稀疏编码的稀疏性,该方法在语言模型和 ASR 模型上进行实验,结果表明它比之前的方法显著优越。在现有移动设备上进行评估,我们能够将原始模型的大小缩小八倍,并实现实时模型推理,同时几乎没有准确性损失。
Jun, 2018
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
本文概述了高效深度学习的方法、系统和应用,包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练,以及各种针对特定任务和空间 - 时间冗余的加速技术和系统设计。
Apr, 2022
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024