A^2Q:面向图神经网络的聚合感知量化
图神经网络的规模和层数的扩展性方面存在挑战,本论文提出一种端到端的解决方案,采用量化方法来压缩模型以提高效率,在资源受限环境中实现高精度的图神经网络,并解决深层图神经网络中的过度平滑问题。
Aug, 2023
本文介绍了一种利用低精度整数算法进行推理的方法,即基于度量化的量化图神经网络,并通过对六个数据集的验证表明,与以往的方法不同,该方法使模型可以推广到未见过的图像,与 FP32 模型相比,在大多数情况下性能相当,在 INT4 模型中我们获得了高达 26%的增益。
Aug, 2020
我们提出了一种适用于训练量化神经网络(QNNs)以避免在推断过程中使用低精度累加器时的溢出问题的新颖的权重量化方法 ——accumulator-aware quantization(A2Q)。A2Q 引入了一种受权重归一化启发的独特公式,根据我们导出的累加器比特宽度限制来约束模型权重的 L1 范数。因此,在训练低精度累加器的 QNNs 时,A2Q 还本质上促进了非结构化权重稀疏性以保证溢出避免。我们将该方法应用于基于深度学习的计算机视觉任务,以表明 A2Q 可以在保持与浮点基准相竞争的模型准确性的同时,训练适用于低精度累加器的 QNNs。在我们的评估中,我们考虑了 A2Q 对通用平台和可编程硬件的影响。然而,我们主要针对在 FPGAs 上部署模型,因为它们可以被编程以充分利用定制累加器比特宽度。我们的实验表明,累加器比特宽度显著影响基于 FPGA 的加速器的资源效率。在我们的基准测试中,A2Q 相比于 32 位累加器对应物平均提供高达 2.3 倍的资源利用率降低,同时保持 99.2% 的浮点模型准确性。
Aug, 2023
本文提出了一种专门针对内存受限设备的 GNN 量化方案 SGQuant,该方案旨在系统地减少 GNN 的内存消耗,通过 GNN 定制的量化算法设计、分层量化策略以及自动位数选择等措施,在减少内存消耗的同时保证模型的高精度,非常有效地将内存占用缩小了 4.25 到 31.9 倍。
Jul, 2020
通过限制权重和激活函数的精度,量化技术通常降低神经网络推理成本。最近的研究表明,降低累加器的精度可以进一步提高硬件效率,但存在数值溢出的风险,这会导致算术错误并降低模型的准确性。为了避免数值溢出并保持准确性,最新的工作提出了一种称为累加器感知量化(A2Q)的量化感知训练方法,在训练期间约束模型权重以在推理过程中安全地使用目标累加器位宽。尽管这显示出了潜力,但我们证明 A2Q 依赖于过于严格的约束和亚优化的权重初始化策略,每个都引入了多余的量化误差。为了解决这些缺点,我们引入了两个改进:(1)一种改进的上界,缓解了累加器约束而不损害溢出避免;(2)一种从预训练的浮点检查点初始化量化权重的新策略。我们将这些贡献与权重归一化结合起来,引入 A2Q+。我们通过实验证实,A2Q + 显著改善了累加器位宽和模型准确性之间的权衡,并表征了累加器约束引起的新的权衡。
Jan, 2024
文章提出了一种新的基于向量量化技术的通用框架 VQ-GNN,为了解决图神经网络中的邻居爆炸问题和扩展性问题,该方法可以有效地保留所有传递给 mini-batch 的节点的信息,同时使用小量的量化参考向量和低秩图卷积矩阵进行图嵌入,同时该框架还设计了一种新的基于近似算法的信息传递算法和反向传播规则来优化模型性能,在节点分类和链接预测基准测试中表现出了可伸缩性和竞争力。
Oct, 2021
本文研究了分布式完全图训练的图神经网络(GNNs),提出了一种快速训练系统 AdaQP,并使用随机量化和通信计算并行化等技术来降低通信成本,实现了训练吞吐量的显著提升和误差微小的准确性改进。
Jun, 2023
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低 1.4-1.95 倍,能量消耗降低 1.9 倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018