关键词quantization techniques
搜索结果 - 14
- 线性线性模型中的准确分块量化
基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下,使内存占用减少 2 倍,且对推理延迟没有影响。
- 大型语言模型的量化策略的全面评估
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支 - 边缘加强的实时铁路轨道分割
我们提出了一种边缘设备启用的实时铁路轨道分段算法,通过优化网络结构和在训练之后对模型进行量化,从而在边缘应用中实现适用性优化。实验结果表明,当输入尺寸为 480x480 时,我们改进的算法在达到 83.3% 的准确率的同时,实现了每秒 25 - A2Q+: 提高累加器感知的权重量化
通过限制权重和激活函数的精度,量化技术通常降低神经网络推理成本。最近的研究表明,降低累加器的精度可以进一步提高硬件效率,但存在数值溢出的风险,这会导致算术错误并降低模型的准确性。为了避免数值溢出并保持准确性,最新的工作提出了一种称为累加器感 - 大型语言模型的极端压缩:基于加性量化
该研究中,我们将经典的多码本量化方法应用于语言模型的压缩,实现了对开放式大规模语言模型的极端压缩,提高了在给定压缩预算下的准确性。
- QuantAttack:利用动态量化对抗视觉转换器
该论文介绍了 QuantAttack,一种针对量化模型的新型威胁方法,通过精心设计的对抗样本耗尽操作系统资源,导致最坏情况性能,从而减慢推理速度,增加内存使用和能量消耗,实验证明了针对视觉转换器的攻击在各种任务中的有效性,包括单模态和多模态 - ZeroQuant-HERO: W8A8 变换器的硬件增强鲁棒优化后训练量化框架
Quantization techniques for deep neural network inference, specifically ZeroQuant-HERO framework, optimize memory bandwi - 剪枝 vs 量化:哪个更好?
对神经网络剪枝和量化技术进行了广泛的比较,结果显示在大多数情况下,量化优于剪枝,只有在极高的压缩比下,剪枝在准确性方面可能带来好处。
- 使用低比特量化来实现高效语音表示学习
我们对语音表示学习模型应用最近的量化技术,并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比,在 ASR 任务上,2 比特配置的存储更小,字错率更低,估计的运行时间更高效。
- 混合精度神经网络综述
本文介绍了混合精度框架优化技巧的现有文献,并对常用的量化技巧进行了总结,其中部分框架运用的优化技巧为强化学习和确定性舍入,文章讨论了每种框架的优点和缺陷,并且为未来的混合精度框架提供了指导。
- 神经网络量化的混淆权衡
通过深入分析网络量化中易被忽视的 trade-offs,本文建议使用 quantization cards 清晰地表达设计选择以帮助研究人员更有效地比较方法,帮助工程师确定量化技术的适用性,从而提高网络量化的准确性和可行性。
- KDD用于雷达干扰抑制的量化神经网络
本文研究基于 CNN 的雷达信号去噪和抗干扰的量化技术,比较了不同网络结构和大小的量化潜力,并分析了由于雷达频率带干扰而导致的环境感知问题。
- 深度学习推理的整数量化:原理与实证评估
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种 8 位量化工 - CVPR精度生物医学图像分割的完全卷积网络量化
本文旨在探讨量化技术在深度神经网络(DNN)和全卷积神经网络(FCN)的生物医学图像分割中的应用,而不是仅仅将其用于降低内存和计算复杂度。实验结果表明,在 MICCAI Gland 数据集上,我们的方法不仅优于现有的技术,而且可以使内存使用