post-training quantization | BriefGPT

关键词post-training quantization

搜索结果 - 93

QNCD: 扩散模型的量化噪声校正
我们的研究提出了一种统一的量化噪声校正方案 (QNCD)，旨在减少扩散模型中的量化噪声，消除图像合成中由量化引起的失真。通过消除嵌入到 resblock 模块中的嵌入衍生特征和动态过滤整个去噪过程中的量化偏差积累，我们的方法在 ImageN
PDF3 months ago
ICLRAffineQuant：大型语言模型的仿射变换量化
基于等效仿射变换的后训练量化方法 (AffineQuant) 扩展了优化范围，显著减少了量化误差，在大规模语言模型上达到了显著的性能提升，并在 PTQ 领域树立了新的技术标杆。
PDF3 months ago
COMQ：一种免反向传播的用于后训练量化的算法
采用了一种创新的 PTQ 算法 COMQ，通过逐层坐标最小化重构误差，使得精简后的模型在不损失原始准确性的情况下高效部署
PDF4 months ago
QuantTune: 自适应异常值驱动的模型量化优化
我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因，并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重，有效控制了有问题激活的动态范围，从而在几种
PDF4 months ago
FrameQuant: 柔性低位量化技术用于变换器
通过引入从谐波分析中借用的融合框架的概念，我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位（加一些开销），并只在准确性上稍有降低，通过实验证明，此方案对 Transformer 模型的量化几乎可以实现显著的效率
PDF4 months ago
评估量化的大型语言模型
本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。
PDF4 months ago
面向重参数化模型的准确后训练量化
通过使用平均绝对误差作为评估指标，我们提出了一种新的框架 RepAPQ，它有效地保持了量化再参数化模型的准确性，并通过量化保护再参数化和跨块校准的组件实现了更好的模型性能。实验证明，我们的方法在各种模型和任务上都优于以前的方法，8 位 PT
PDF4 months ago
EdgeQAT：基于熵和分布的量化感知训练用于边缘轻量级语言模型加速
提出了一种新的轻量级语言模型优化方法 EdgeQAT，通过熵和分布引导的量化感知训练，动态量化不同位宽的令牌，从而在边缘设备上实现推理加速，并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。
PDF5 months ago
迈向超大规模 Transformer 的下一级后训练量化
本文提出了一种新颖的 PTQ 算法 aespa，通过逐层量化实现高效性，同时考虑跨层依赖以保留注意力分数，通过对多种语言模型的广泛实验和复杂度分析，证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。
PDF5 months ago
RepQuant: 基于尺度重参数化的大型 Transformer 模型准确的后训练量化
提出了一种新型的后训练量化框架 RepQuant，通过量化推理解耦合范式，采用复杂的量化器进行量化过程，采用简化的量化器进行推理过程，同时将量化标度重新参数化，以确保准确的量化和高效的推理，并通过集成量化权重重构进一步提高性能限制，经过广泛
PDF5 months ago
L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ
L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
PDF5 months ago
BiLLM: 提高 LLM 后训练量化的极限
BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在
PDF5 months ago
QuIP#: 通过哈达玛不相干和格码书更好地 LLM 量化
在这项研究中，我们引入了权重量化的新方法（QuIP#），通过三个创新技术，在极端压缩模式下（每个权重≤4 位）实现了最先进的结果。QuIP# 通过使用随机哈达玛变换改进 QuIP 的不相干处理，并利用具有不相干权重的球形亚高斯分布来使用向量
PDF5 months ago
量化近似正交递归神经网络
针对计算能力有限的设备，本文研究了正交循环神经网络（ORNNs）的量化问题，并提出了通过后训练量化和量化感知训练方法来实现量化正交 RNNs（QORNNs），实验结果表明量化感知训练比后训练量化更有效，最高效的模型在各种标准测试中达到与精确
PDF5 months ago
LQER: 低秩量化误差重建法用于 LLMs
本研究提出了一种通过低秩近似和量化相结合的方法，使用激活引起的比例矩阵将量化误差的奇异值分布调整到理想值，实现了在各种大型语言模型和相关任务上几乎无失真的 W4A8 量化，而无需知识蒸馏、网格搜索或基于梯度的迭代优化，并且与现有方法相比，计
PDF5 months ago
ICLRLiDAR-PTQ: 点云三维物体检测的后训练量化
3D 激光雷达检测器的部署面临着计算能力和内存受限的重要挑战，文章提出了一种名为 LiDAR-PTQ 的有效后训练量化方法，包括稀疏度校准、任务引导的全局正损失以及自适应最近邻舍入操作等主要组成部分，通过广泛实验验证了其在激光雷达检测任务中
PDF5 months ago
MPTQ-ViT：VisionTransformer 的混合精度后训练量化
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT)，在 ImageN
PDF5 months ago
面向边缘设备的压缩网络对分布转移的鲁棒性
压缩网络在面对域转移和对抗扰动时的稳健性较原始网络较低，较大的网络比较小的网络更容易丧失稳健性，知识蒸馏得到的紧凑网络在面对域转移时比剪枝网络更稳健，后训练量化是一种可靠的方法，能显著提高稳健性，胜过剪枝和蒸馏模型的稳健性。
PDF5 months ago
LRP-QViT：基于逐层相关传播的混合精度视觉 Transformer 量化
LRP-QViT 是一种基于可解释性的方法，为不同层分配混合精度位分配，该方法通过将局部相关性分数传播到所有层，计算层的贡献分数，进而通过剪切通道的量化消除严重的通道间差异。该方法在 ViT、DeiT 和 Swin transformer
PDF5 months ago
增强的分布对齐用于后训练量化扩散模型
优化的分布对齐方法可用于增强扩散模型的后训练量化，从而解决现有方法中存在的分布不匹配问题，提高在噪声估计任务中的性能，并在低位精度情况下超过完整精度模型的性能。
PDF6 months ago