我们提出了一种端到端可微分的带宽高效神经推理方法,通过神经数据压缩方法对激活进行压缩,可实现高达 19 倍的带宽减少和 6.21 倍的能量节省。
Sep, 2023
本文提出一种矢量量化方法,以减小卷积神经网络架构的存储占用,能以较小的内存占用提供高精度的图像识别。
Jul, 2019
为了应用 DNN 在移动设备中,我们提出了压缩 QNN 的新编码方案,使用 {-1, +1} 将其分解成多个二进制网络,使用位运算 (xnor 和 bitcount) 实现模型压缩、计算加速和资源节约。我们的方法非常适合在 FPGA 和 ASIC 上使用,验证了在大规模图像分类 (例如 ImageNet) 和物体检测任务中具有与全精度相近的性能。
May, 2019
研究表明,使用 4 位和 8 位模型量化的 bfloat16 ResNet 模型计算成本和准确性的权衡曲线优于 bfloat16 模型,其中以 4 位模型量化为主的模型具有最佳 Pareto 曲线,并且基于量化感知训练的 4 位 ResNet-50 模型在 ImageNet 上取得了 77.09%的准确率。
May, 2021
本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法,通过在不同结构、层次上采用不同的精度,达到更好的压缩比和准确率的平衡。实验结果表明,与传统量化方法相比,该方法在相同压缩率下表现更优。
Oct, 2018
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本,并能实现 1%以下的 top-1 精度下降。
Apr, 2018
本文提出了一种在有限硬件资源上实现预训练模型的 4 位整数(INT4)量化的优化方法,将线性量化任务形式化为最小均方误差(MMSE)问题,并对网络的每一层进行限制 MSE 问题的优化以及多个量化张量的硬件感知分区,除少量精度降低外,在多种网络架构上实现最先进的结果。
Feb, 2019
通过一种一次性训练 - 搜索范式,本文研究了混合精度模型压缩的问题,并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。
Jan, 2024
本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题,将讨论延伸量化感知训练的方法,实现了仅在每个前向传递过程中量化不同的一组随机权重,从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的,并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。
Apr, 2020
本文提出了一种通过使用全变分权重分布进行深度神经网络压缩的方法,能够实现更高的压缩率和更高的测试性能,并在 LeNet-5/MNIST 和 VGG-16/CIFAR-10 基准测试中创造出新的最优结果。
Sep, 2018