- 通过最佳平衡实现精确高效的量化大语言模型微调
本论文介绍了一种用于优化量化预训练的大型语言模型的方法,通过简化适配器输入和输出并增加适配器的秩以实现更适合于优化量化的平衡,同时提出了一种用于低精度推断的量化感知微调方法,取得了优于其他方法的最高准确性,并应用于不同细调数据集和下游场景中 - 像素嵌入:带有可微分查找表的完全量化卷积神经网络
通过使用像素嵌入替代浮点输入像素,我们提出一种全量化深度神经网络的方法,通过查找表将每个浮点输入像素替换为一个由量化值组成的向量,实验证明像素嵌入可以显著减小由于浮点数量化而导致的错误率差距,并且相比于浮点精度第一层,推理时间可以加速 1. - 模型压缩性能评估和优化的综合研究:传统深度学习与大型语言模型的联系
通过量化和修剪技术对各种训练好的深度学习模型进行压缩,并探讨了大型语言模型在量化和低秩适应后的性能,讨论了挑战和未来工作。
- RISC-V 内核上的混合精度神经网络:用于多泵软 SIMD 操作的 ISA 扩展
通过引入 ISA 扩展和硬件设计来优化混合精度硬件的 RISC-V CPU 体系结构,我们的研究工作首次提出了一种硬件 - 软件共同设计框架,以实现混合精度量化和推理的协同,并验证通过广泛的实验评估表明,我们的框架可以在准确率损失不超过 1 - LiNR: 在领英上基于模型的神经检索
该论文介绍了 LinkedIn 的大规模基于 GPU 的检索系统 LiNR,该系统支持在 GPU 模型上进行十亿级索引。我们讨论了使用 TensorFlow 和 PyTorch 在生产规模上创建可扩展的可区分搜索索引的经验和挑战。LiNR - 瓷砖位网络:通过可学习的二进制向量的重复使用进行亚位神经网络压缩
通过使用二进制神经网络、量化和图块位网络等方法,在减小模型大小的同时,实现了在不同体系结构和任务中接近全精度性能的结果。
- 探索量化技术以提高 Transformer 语言模型的高效预训练
本研究旨在探索 Quantization 对 Transformer 模型进行高效的预训练的影响,重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态,我们评估其对模型的效率、稳定性和训练性能的影响。通过提供 - NITRO-D: 深度卷积神经网络的原生整数训练
NITRO-D 是一个新的框架,用于训练完全在整数领域进行训练和推理的任意深度整数型卷积神经网络,不需要引入量化方案,并通过多个整数本地损失块和特定于整数领域的优化器 IntegerSGD 引入了一种新颖的整数型学习算法。
- ECCV视觉 - 语言模型的高效泛化的量化提示
在这篇论文中,我们研究了大规模预训练视觉 - 语言模型中的过拟合和灾难性遗忘问题,并提出了一种基于量化的正则化方法,以提高模型的泛化能力和专业化能力,并降低存储和推断成本。
- 通过高效的量化技术优化基于 DNN 的说话者验证模型
我们的研究提出了一种用于说话人验证模型量化的优化框架,通过分析预训练模型每个层的性能变化和模型大小减小,我们成功地减小了性能降低的同时显著减小了模型大小。我们的量化算法是在保持最先进的预训练模型 ECAPATDNN 的性能的前提下,显著压缩 - 基于嵌入式 FPGA 的整数量化变压器用于 AIoT 中的时间序列预测
本文介绍了一种为 AIoT 系统中的设备端时间序列预测而优化的 Transformer 硬件加速器的设计,它结合了整数量化和量化感知训练与优化的硬件设计,实现了 6 位和 4 位量化的 Transformer 模型,其精度与相关研究中的 8 - YOLOv7 量化研究
YOLOv7 模型的预训练权重上采用 4 位量化和不同粒度的组合,与全精度基线模型相比,均匀量化和非均匀量化分别实现了约 3.92 倍和 3.86 倍的内存节省,仅有 2.5% 和 1% 的精度损失。
- 量化和剪枝对深度强化学习模型的影响
本研究调查了两种突出的神经网络压缩方法(量化和修剪)对深度强化学习模型的影响,发现尽管模型大小减小,但这些压缩技术通常并不改善深度强化学习模型的能量效率,为在资源受限环境中部署高效的深度强化学习模型提供了指导方针。
- ICML具有关键类别目标的 DETR 检测器的鱼尔论量化
通过使用 Fisher 信息框架,分析目标检测中量化对关键类别性能的影响,并提出了改进关键类别性能的方法,尤其在 4 位量化的 COOC Panoptic 数据集上取得了 10.4% 至 14.5% 的 mAP 提升。
- 量化如何影响多语言 LLMs?
量化、多语言 LLMs 的性能、语言、评估
- ADFQ-ViT: 视觉 Transformer 的激活分布友好的后训练量化
提出了一种名为 ADFQ-ViT 的新型框架,通过引入 Per-Patch Outlier-aware Quantizer、Shift-Log2 Quantizer 和 Attention-score enhanced Module-wis - 基于知识蒸馏和量化的边缘设备统一异常检测方法
在工业 4.0 中,随着深度学习和智能制造的快速发展,高吞吐量、高性能和完全集成的视觉检测系统呼之欲出。我们的实验研究表明,多类模型在标准 MVTec AD 数据集上的性能与单类模型相当,进一步证明了当物体类别之间差异显著时,学习单独的物体 - 探索 MX 及其进一步的 FPGA 设计
针对低精度计算的 Open Compute Project MX 标准,本文描述并评估了首个开源 FPGA 实现的算术计算。我们的设计完全支持标准中定义的具体格式以及标准规定的算术运算,同时还支持任意固定点和浮点格式。通过实现例子神经网络如 - 基于细粒度梯度保持的脑肿瘤分类的深度融合模型
该研究提出了一种精确的大脑肿瘤分类方法,通过融合预训练的 ResNet152V2 和修改的 VGG16 模型,在深度神经网络中保留细微的梯度以实现有效的肿瘤分类,并结合各种图像处理技术来改善图像质量,准确度分别达到 98.36% 和 98. - FedAQ: 基于上下行自适应量化的通信高效联邦边缘学习
通过使用量化的综合方法,联合上下行适应性量化以减少通信开销,我们优化了学习收敛性,并通过确定最优的上行和下行量化位数进行了通信能量约束。实验结果表明,所提出的联合上行和下行适应性量化策略与现有方案相比,能够节省高达 66.7% 的能量。