ShiftAddNet: 一种受硬件启发的深度网络
该研究工作介绍一种名为 ShiftAddNAS 的模型搜索算法,倡导用既具有强大计算能力又经济高效的操作符制约神经网络的深度学习,旨在寻找更为准确和高效的混合神经网络。该算法实现了多种操作符的混合和权重共享,并在各个首要指标和场景下均取得了显著优化。
May, 2022
提出使用卷积位移和完全连接位移加速模型部署到边缘计算平台。在使用 DeepShift 模型转换和训练的预先训练的 ResNet18,ResNet50,VGG16 和 GoogleNet 模型中,可以获得接近甚至更高的准确率,并且 GPU 内核可以减少 25% 的延迟时间,具有较好的应用前景。
May, 2019
提出了一种名为 DenseShift 的神经网络,在低比特训练和转移学习方面具有优越的性能,通过零 - free 位移机制,新的度量标准和随机初始化策略,有效地简化了推理并提高了模型容量。
Aug, 2022
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效,可以用于未来的高性能和能效的人工智能应用中。
Jan, 2021
该论文通过使用 AdderNets,将深度神经网络中的大量乘法转化为更便宜的加法来降低计算成本。通过特殊的反向传播方法和自适应学习率策略,在卷积层中消除任何乘法,以实现更好的性能优化。使用 ResNet-50 在 ImageNet 数据集上,无需进行任何乘法运算就能达到 74.9%的 Top-1 精度和 91.7%的 Top-5 精度。
Dec, 2019
介绍了 ShiftCNN,这是一种基于 2 的 n 次幂权重表示的广义低精度卷积神经网络(CNN)推理架构,可应用于任何具有相对较小权重代码本的 CNN 架构,并且减少至少两个数量级的乘积运算,可实现的加速器有 FPGAs 或 ASICs。使用提议的量化算法,ImageNet 的广泛评估表明可以将最先进的 CNN 转换为 ShiftCNN 并且不到 1% 的准确率下降。
Jun, 2017
本研究提出了一种通过后期训练的 ShiftAndAddLLM 来加速预训练的大型语言模型,通过将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵,并将与二进制矩阵相关的乘法重新参数化为在激活和缩放因子之间进行的移位和加法操作,以减少内存使用和延迟,并且通过多目标优化方法来最小化权重和输出激活重新参数化误差,进一步降低了精度损失。
Jun, 2024
本文提出了一种自适应分层比例缩放的位编码量化(ALS-POTQ)方法和无乘积 MAC 的方法(MF-MAC),可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性,从而获得比现有方法更高的能源效率和准确性。
Feb, 2023
二进制神经网络使用 1 位量化的权重和激活来减少模型的存储需求和计算负担。本文提出了 A&B BNN,在传统的 BNN 中直接移除了一部分乘法运算并用相等数量的位运算代替其余部分,引入了掩码层和基于无正则化网络架构的量化 RPReLU 结构。掩码层可以通过数学变换避免相关的乘法运算。量化 RPReLU 结构通过限制其斜率为 2 的整数幂,实现更高效的位运算。实验结果在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上分别达到 92.30%、69.35% 和 66.89%,与最先进方法相当。消融实验验证了量化 RPReLU 结构的有效性,与使用固定斜率 RLeakyReLU 相比,在 ImageNet 上提升了 1.14%。提出的仅添加位操作的 BNN 为硬件友好型网络架构提供了创新的方法。
Mar, 2024
本文提出了一种名为 ShiftAddViT 的卷积神经网络,用于多种视觉任务,该网络通过将注意力和多层感知机重新参数化为位移和加法,从而实现在 GPU 上进行端到端推理加速,并在一定程度上提高了训练和推断效率。
Jun, 2023