- TinySAM: 高效细分任意模型的突破
提出了一种 TinySAM 模型,通过知识蒸馏、后训练量化和分层分割策略,在保持零样本性能的同时大幅度减少了计算成本,进一步推动了高效分割任务的发展。
- 通过粗粒度和细粒度权重分割进行重参数化的训练后量化
神经网络在各种应用中取得了巨大的进展,但需要大量的计算和内存资源。网络量化是一种强大的技术,用于压缩神经网络,使得人工智能的部署更加高效和可扩展。最近,再参数化 emerged 作为一种有前途的技术来提高模型性能,同时减轻各种计算机视觉任务 - CBQ:大型语言模型的跨块量化
基于交叉块重建的后训练量化方法 (CBQ) 通过优化量化参数和降低重构困难来提高大规模语言模型的效率和性能。
- FP8-BERT:Transformer 的后训练量化
本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验,验证了 FP8 作为一种进行后训练量化的有效方式,能够在不显著损失精度的情况下提高准确性。
- TFMQ-DM:扩散模型的时间特征维护量化
提出一种基于时间特征维护的量化方法,该方法通过时间信息块对传统的扩散模型进行优化,实现了与全精度模型几乎相媲美的模型性能在 4 位权重量化下,并无额外计算成本、在 LSUN-Bedrooms 的量化时间加速了 2 倍。
- 在 FPGA 上使用低精度 Minifloats 和整数进行后训练量化
在这项研究中,我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性,并通过 FPGA 型号评估结 - I&S-ViT:推进 Post-Training ViTs 量化极限的包容稳定方法
提出了一种新颖的方法 I&S-ViT,用于稳定地进行 ViTs 的 PTQ,包括引入 shift-uniform-log2 量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有 - 文本到图像扩散模型的渐进校准和激活松弛的后训练量化
我们提出了一种新的文本到图像扩散模型的后训练量化方法 PCR(渐进校准和放松),它包括了一种渐进校准策略,考虑了时间步长上的积累量化误差,以及一种激活放松策略,在性能提升方面几乎没有成本。另外,我们展示了文本到图像扩散模型量化的先前度量不准 - EMNLP通过权重和激活量化提升大型语言模型的计算效率
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解 - 探索蛋白质语言模型的后训练量化
我们的研究引入了一种创新的对蛋白质语言模型进行后训练量化的方法,解决了特定的量化挑战,可能导致更高效的蛋白质语言模型的开发,并对各种与蛋白质相关的应用产生重要影响。
- EMNLPLLM-FP4: 4 位浮点数量化变压器
我们提出了 LLM-FP4,在训练后将大型语言模型(LLM)的权重和激活量化为 4 位浮点数值。
- QLLM:用于大型语言模型的准确高效低比特量化
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
- PB-LLM:部分二元化大型语言模型
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的 - QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法
本研究采用 Coordinate Descent(CD)技术,通过 QuantEase 分层量化框架对 Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎 3 位量化并提高模型性能。
- 量化生成模型的 Softmax 偏差校正
研究通过离线偏差校正技术改善了量化后的 softmax,在资源受限的边缘设备上推理能力得到了显著的准确性提升。
- FPTQ:大型语言模型的细粒度后训练量化
本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。
- OmniQuant:大型语言模型的全向校准量化
利用 OmniQuant 技术对大型语言模型进行后训练量化,实现了在多种量化设置下的出色性能,同时保持计算效率;在实际设备上能够显著提高推理速度和内存减少。
- 走向无剪裁量化超分辨率网络:如何驯服代表性图像
利用提出的剪辑无关量化流程 (CFQP) 来调整代表性数据集 (RD) 图像,成功地消除非期望的剪辑激活层,从而提高稳定性、减少推理运行时间并获得更好的视觉质量结果,而无需使用剪辑激活进行重训练。
- 基于梯度的训练后量化:对现状的挑战
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更 - 自我蒸馏量化:在基于 Transformer 的语言模型中实现高压缩率
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-B