通过模型冻结加速深度学习推理

Feb, 2020

Accelerating Deep Learning Inference via Freezing

Adarsh Kumar, Arjun Balasubramanian, Shivaram Venkataraman, Aditya Akella

TL;DR通过缓存中间层输出，可以避免运行所有 DNN 层，从而减少预测延迟，本文介绍了 Freeze Inference 系统，它通过在每个中间层引入逼近缓存，并讨论如何减小缓存大小和提高缓存命中率，未来的挑战也被提出。

Abstract

Over the last few years, deep neural networks (DNNs) have become ubiquitous owing to their high accuracy on real-world tasks. However, this increase in accuracy comes at the cost of computationally expensive models leading to higher prediction latencies. Prior efforts to reduce this la

deep neural networks latency reduction caching approximation inference requests

发现论文，激发创造

FreezeOut: 逐渐冻结层以加速训练

在深度神经网络中，我们提出仅对隐藏层进行一定时期的训练，并逐层将它们冻结并排除在反向传递中，从而在 CIFAR 上进行实验，实现了 20% 的时间节省，3% 的 DenseNets 准确度损失，20% 的 ResNets 加速而无损失，并没有改善 VGG 网络的结果。

Jun, 2017

深度神经网络的高效在线处理

本论文致力于提高神经网络的效率，提出了连续推理网络（CIN），它通过自下而上的计算重新组织和适度的架构修改来改善其在线处理效率，并采用 CIN 重构了几种广泛使用的网络架构，包括 3D CNN，ST-GCN 和 Transformer Encoders。另外，通过使用熔接适配器网络和结构修剪，本论文还达到了在使用较少的学习权重的情况下实现卓越的预测准确性的目的。

Jun, 2023

深度神经网络的完全动态推断

提出了一种全动态模型的方法，称为 LC-Net，旨在最大化深度卷积神经网络的计算效率和任务准确性，通过以层和卷积滤波通道为单位的层次推理动力学，能够预测冗余层和卷积滤波器 / 通道并学习保留计算结果以实现最大化任务准确性。

Jul, 2020

AutoFreeze：自动冻结模型块以加速微调

本研究提出了 AutoFreeze 系统，通过自适应选择训练的层并设计了两种执行模式，实现了在保持模型准确性的同时加速 fine-tuning，使用缓存技术在单个 GPU 上能够改善 fine-tuning 的速度达到最多 2.55 倍，在 64 个 GPU 集群上的 fine-tuning 速度达到最多 4.38 倍，并实现了 5.03 倍的总成本降低。

Feb, 2021

量化卷积神经网络以用于低功耗高吞吐量推理引擎

本文提出了一种量化方案，通过在参考浮点模型上校准而不是重新训练来确定量化方案参数，从而实现了基于更高效的算术进行推理，并且在量化后的结果中，终端到终端精度可与基准模型相当。

May, 2018

图像识别的简单缓存模型

使用简单的键值缓存记忆提出了一种不需要重新训练或微调的方法来提高预训练模型的分类性能，并可以增强对抗攻击的鲁棒性。通过将靠近输出的层提取的特征作为键来形成键值，可以在大型图像识别模型中获得显著的性能提升。

May, 2018

用于粒子探测器边缘低延迟推断的深度神经网络自动异构量化

本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法，旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要，其中资源严格限制，需要一种纳秒级的推理和降低 50 倍的资源消耗。

Jun, 2020

冻住！通过信号传播分析提高大型语言模型的量化知识蒸馏

该研究提出了一种轻量级量化感知微调技术，使用知识蒸馏来改进 4 位权重量化大语言模型的性能，并通过对梯度传播进行实证研究以稳定 KD-QAT 过程。通过 ov-freeze 技术，在 4 位量化级别上实现了接近浮点精度性能，在常识推理基准测试中精度损失不超过 0.7%。

Mar, 2024

面向可适应优化算法的灵活准确性导向深度学习模块推断延迟预测框架

深度学习模型推理延迟预测的新框架和新方法 MEDN 在综合实验中展现了较高的准确性和 R 方值。

Dec, 2023

Egeria: 基于知识引导的层冻结技术用于高效 DNN 训练

本文介绍了一种跳过计算和通信过程的深度神经网络培训方法，采用层冻结技术，通过量子化技术实时地生成参考模型，以达到评估每个层的训练效果并安全地冻结已经达到了期望的层的效果，从而获得 19% 至 43% 的培训速度提升。

Jan, 2022