BatchQuant: 鲁棒量化器的量子化全架构搜索
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
该研究探索了一种新的神经网络压缩方法,通过不同比特宽度的量化不同层并使用可微分神经架构搜索框架进行优化,成功地实现了比现有方法更高的压缩率,模型尺寸缩小21.1倍或计算量降低103.9倍
Nov, 2018
APQ是一种用于在资源受限的硬件上高效进行深度学习推理的方法,通过联合优化神经架构、修剪策略和量化策略来处理设计空间更大的问题,同时利用全精度准确度预测器向量化至量化准确度预测器以大幅提高样本效率,其在ImageNet上的实验结果表明其可以以更低延迟/能耗降低2倍/1.3倍的前提下获得与项代号MobileNetV2+HAQ相当的准确性,并比代号为ProxylessNAS+AMC+HAQ的分别优化方法实现更高达2.3%的准确率,同时大幅减少GPU时数和CO2排放。
Jun, 2020
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文提出一种结合网络架构搜索和量化的方法(OQAT),通过联合训练网络架构和量化并引入位继承方案来获得更高的量化准确率并在不同位宽下实现了新的最优结果。
Oct, 2020
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
通过使用多目标搜索算法与轻度训练的预测器相结合,我们展示了在准确性、模型大小和延迟等不同性能目标中,我们的方法在ViT、BERT、BEiT-3和ResNet等转换器和卷积网络的架构上比各自的基准表现更好,特定网络的性能提升在延迟方面最高达到4.80倍,在模型大小方面最高达到3.44倍,与全量化INT8基准相比准确性不降低。
Dec, 2023
使用基于块的NAS方法实现在大规模任务上的量化感知NAS (INT8和FB-MP),并在Cityscapes数据集上展示了显著的结果,找到了比DeepLabV3 (INT8)模型小33%, INT8模型快17.6%的FB-MP模型,而不影响任务性能。
Jan, 2024
对于大型和高性能的视觉基础模型(Vision Foundation Models,VFMs)进行任意位操作(BitOPs)的压缩,以在各种硬件上部署。我们提出了将VFM微调为混合精度量化超网络的方法,该超网络进行神经架构搜索(NAS),可以训练超网络,然后可以提取在任意硬件预算内的子网络。针对现有方法在优化混合精度搜索空间和训练过程中产生大量内存开销方面的困难,我们首先通过比较不同操作符(如分辨率、特征大小、宽度、深度和位宽)的性能和BitOPs减少来研究微调VFM的有效搜索空间设计。其次,我们提出了一种使用低秩适配器(LoRA)和渐进训练策略的内存高效超网络训练方法。该方法在最近提出的VFM(Segment Anything Model)上进行了评估,并在分割任务上微调。搜索出的模型在不降低性能的情况下减少了约95%的BitOPs。
Mar, 2024
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024