- 视觉 Transformer 模型量化和硬件加速:综述
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了 ViTs 的独特架构特性、运行时特性、模型量化的基本原则,以及用于 ViTs 的最新量化技术的比较分析。此外,还探索了量化 ViTs 的硬件加 - AdaQAT:自适应比特宽度量化感知训练
本文介绍了 AdaQAT,一种基于学习的方法,用于在训练过程中自动优化深度神经网络的权重和激活信号的比特宽度,以实现更高效的推断。相比其他方法,AdaQAT 在从头开始训练和微调场景中表现良好,并在 CIFAR-10 和 ImageNet - EasyQuant: 一种高效无数据量化算法用于 LLMs
本研究提出了 EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快 10 倍以上。
- LLM-PQ:利用多阶段感知分割和自适应量化为异构集群提供 LLM
LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ 大大提高了推理吞吐量,同时满足用户指定的模型质量 - Ef-QuantFace: 精简的小数据和低比特精度人脸识别
该研究论文介绍了一种以高效为驱动的模型量化方法,使用比传统方法小 440 倍的数据集进行微调,通过引入评估基于指标的损失,该方法在 IJB-C 数据集上实现了 96.15% 的准确率,建立了面部识别领域新的压缩模型训练的最新技术。
- 基于低成本代理的混合精度自适应量化
该论文提出了一种名为 LCPAQ 的新型模型量化方法,其中包含三个关键模块。在考虑硬件限制的基础上设计了硬件感知模块,开发了自适应混合精度量化模块来评估量化灵敏度,并使用希狄矩阵和 Pareto 边界技术进行整数线性规划来微调不同层的量化。 - 跨层优化的容错深度学习
提出了一种基于容错深度学习加速器的方法,通过对深度学习处理组件的建筑层和电路层进行选择性保护,降低由于冗余计算造成的开销,并通过优化设计参数在算法层、建筑层和电路层上减少硬件资源消耗,同时满足可靠性、准确性和性能等多个用户约束。
- 量化蒸馏:为资源受限环境优化驾驶员活动识别模型
通过使用知识蒸馏和模型量化来增强 3D MobileNet,该论文介绍了一个轻量级的资源高效驾驶员活动识别框架,通过从较大的教师模型(I3D)获取软标签来降低模型大小,降低内存和计算需求,从而实现模型大小的减小三倍和推断时间提升 1.4 倍 - ICCV因果引导的无数据网络量化
通过构建因果图来模拟预训练模型和量化模型之间的数据生成和差异减少,提出了因果引导的无数据网络量化方法 Causal-DFQ,通过接近因果驱动的干预分布的均衡状态来消除对数据的依赖。
- EQ-Net:弹性量化神经网络
本文提出一种名为 Elastic Quantization Neural Networks(EQ-Net)的一次性网络量化方案,旨在训练鲁棒的权重共享量化超网络。我们探索了一种弹性量化空间,并提出了权重分布正则化损失(WDR-Loss)和群 - MRQ: 通过模型重新量化支持多种量化方案
本文介绍了一种新型模型量化方法 MRQ(Model Re-quantization),可将现有的量化模型迅速转换以满足不同的量化需求,克服了重新训练的成本和支持多种量化方案的限制。通过权重校正和舍入误差折叠等新的重量化算法,MobileNe - 适用于每个用户和预算的模型:无标签和个性化的混合精度量化
最近的自动语音识别(ASR)中取得的进展产生了大型 AI 模型,这些模型在移动设备上部署变得不切实际。模型量化可以产生压缩的通用模型,但这些模型可能只能在特定领域中部署。我们表明在量化过程中可以个性化地对 ASR 模型进行个性化调整,仅依赖 - INT2.1: 通过低秩适应实现误差校正的可微量化大语言模型
本文提出了一种新的方法,使用极度节约内存的微调方法和 Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调 VRAM 需求,并使精度达到了 INT2.1。同时,我们的方法适用于其他量化 - 使用层间依赖增强 Hessian 矩阵,用于混合精度后训练量化
提出了一种混合精度后训练量化(PTQ)方法,使用二阶信息和层间依赖关系指导双分搜索,以在用户可配置的模型准确度降低范围内找到量化配置。 该方法可以降低内存占用并提高延迟,同时保持模型准确性。
- ICMLSDQ:带混合精度的随机可微量化
本文提出了一种新的随机可微量化(SDQ)方法,利用不同层和模块的优化比特宽度来自动学习混合精度量化策略,并利用熵感知的分 bin 正则化和知识蒸馏对网络进行训练,经过在不同硬件和数据集上广泛的评估,SDQ 在较低的比特宽度下优于所有最先进的 - Qimera:支持合成边界样本的无数据量化
研究了深度神经网络的模型压缩方法,特别是适用于轻量级移动或边缘设备的推理,提出使用超定位嵌入来生成支持边界的样本,并通过附加解耦映射层和提取全精度模型的信息,改进这种方法,实现了最先进的在无数据情况下量化的性能。
- ICML混合精度和自适应分辨率的可微分动态量化
我们提出了一种完全可微的方法,名为 differentiable dynamic quantization (DDQ),可用于学习模型量化中的所有超参数,通过实验表明 DDQ 在像 MobileNet 这样的轻量架构上表现最好,并且 DDQ - CVPR零样本对抗量化
本文提出了一个零样本敌对量化(ZAQ)框架,利用两级子空间分别描述数据分布的不同特征,通过生成对抗网络驱动生成器合成出优化量化模型的多样性数据示例,实现对全精度模型到其量化模型的有效差异估计和知识转移。在三个基本的视觉任务上进行了广泛实验, - 全量化图像超分辨率网络
针对模型量化与 SR 网络训练中的两个困难,本文提出了一种全量化图像超分辨率框架(FQSR)来同时优化效率和精度,并在多个主流 SR 构架上应用,实验表明与全精度 SR 方法相比,FQSR 具有相同的性能和较低的计算成本。
- 基于硬件的混合精度量化自动机器学习
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。