quantization techniques | BriefGPT

关键词quantization techniques

搜索结果 - 14

线性线性模型中的准确分块量化
基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下，使内存占用减少 2 倍，且对推理延迟没有影响。
PDF4 months ago
大型语言模型的量化策略的全面评估
对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支
PDF5 months ago
边缘加强的实时铁路轨道分割
我们提出了一种边缘设备启用的实时铁路轨道分段算法，通过优化网络结构和在训练之后对模型进行量化，从而在边缘应用中实现适用性优化。实验结果表明，当输入尺寸为 480x480 时，我们改进的算法在达到 83.3% 的准确率的同时，实现了每秒 25
PDF6 months ago
A2Q+: 提高累加器感知的权重量化
通过限制权重和激活函数的精度，量化技术通常降低神经网络推理成本。最近的研究表明，降低累加器的精度可以进一步提高硬件效率，但存在数值溢出的风险，这会导致算术错误并降低模型的准确性。为了避免数值溢出并保持准确性，最新的工作提出了一种称为累加器感
PDF6 months ago
大型语言模型的极端压缩：基于加性量化
该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。
PDF7 months ago
QuantAttack：利用动态量化对抗视觉转换器
该论文介绍了 QuantAttack，一种针对量化模型的新型威胁方法，通过精心设计的对抗样本耗尽操作系统资源，导致最坏情况性能，从而减慢推理速度，增加内存使用和能量消耗，实验证明了针对视觉转换器的攻击在各种任务中的有效性，包括单模态和多模态
PDF8 months ago
ZeroQuant-HERO: W8A8 变换器的硬件增强鲁棒优化后训练量化框架
Quantization techniques for deep neural network inference, specifically ZeroQuant-HERO framework, optimize memory bandwi
PDF9 months ago
剪枝 vs 量化：哪个更好？
对神经网络剪枝和量化技术进行了广泛的比较，结果显示在大多数情况下，量化优于剪枝，只有在极高的压缩比下，剪枝在准确性方面可能带来好处。
PDFa year ago
使用低比特量化来实现高效语音表示学习
我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。
PDF2 years ago
混合精度神经网络综述
本文介绍了混合精度框架优化技巧的现有文献，并对常用的量化技巧进行了总结，其中部分框架运用的优化技巧为强化学习和确定性舍入，文章讨论了每种框架的优点和缺陷，并且为未来的混合精度框架提供了指导。
PDF2 years ago
神经网络量化的混淆权衡
通过深入分析网络量化中易被忽视的 trade-offs，本文建议使用 quantization cards 清晰地表达设计选择以帮助研究人员更有效地比较方法，帮助工程师确定量化技术的适用性，从而提高网络量化的准确性和可行性。
PDF3 years ago
KDD用于雷达干扰抑制的量化神经网络
本文研究基于 CNN 的雷达信号去噪和抗干扰的量化技术，比较了不同网络结构和大小的量化潜力，并分析了由于雷达频率带干扰而导致的环境感知问题。
PDF4 years ago
深度学习推理的整数量化：原理与实证评估
本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种 8 位量化工
PDF4 years ago
CVPR精度生物医学图像分割的完全卷积网络量化
本文旨在探讨量化技术在深度神经网络（DNN）和全卷积神经网络（FCN）的生物医学图像分割中的应用，而不是仅仅将其用于降低内存和计算复杂度。实验结果表明，在 MICCAI Gland 数据集上，我们的方法不仅优于现有的技术，而且可以使内存使用
PDF6 years ago