ShiftAddViT:基于混杂乘法原语的高效视觉 Transformer
本篇论文针对实际应用中的系统资源限制和时间敏感性等问题,提出了一种模型加速器协同设计框架 M$^3$ViT,通过将混合专家层定制为视觉转换器后端的 MTL,只激活任务相关的稀疏专家途径,从而在单个设备上实现高效的 MTL,在单任务推理时提高了推理准确性,并减少了 88%的推理 FLOPs。
Oct, 2022
该研究提出了 Edge-MoE 的解决方案,这是第一个针对 multi-task ViT 的端到端 FPGA 加速器,其创新包括 Novel Reordering Mechanism、Fast Single-Pass Softmax Approximation、Low-Cost GELU Approximation、Unified Computing Unit 和 Novel Patch Reordering Method。 较 GPU 和 CPU 相比,Edge-MoE 的能源效率分别提高了 2.24x 和 4.90x。
May, 2023
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本研究提出了一种通过后期训练的 ShiftAndAddLLM 来加速预训练的大型语言模型,通过将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵,并将与二进制矩阵相关的乘法重新参数化为在激活和缩放因子之间进行的移位和加法操作,以减少内存使用和延迟,并且通过多目标优化方法来最小化权重和输出激活重新参数化误差,进一步降低了精度损失。
Jun, 2024
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
使用 PriViT 算法,通过温和改变 Vision Transformer 结构中的非线性变换,实现了在维持预测准确性的同时,适应安全多方计算(MPC)协议的隐私预测,相比于现有方案,PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。
Oct, 2023
本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。
Jun, 2021
本文提出 I-ViT 作为 Vision Transformers 的整数量化方案,在不使用浮点算数的情况下,通过整数算术和位移来完成计算图的整个计算过程,并使用 Shiftmax 和 ShiftGELU 等方法来近似非线性组件,以减少模型复杂性并提高在边缘设备上的有效性,实验结果表明整数量化达到与 FP 基线相当(甚至略高)的准确率,并且使用 TVM 在 GPU 的整数算术单元上实现了 3.72-4.11 倍的推断加速。
Jul, 2022
本研究研究了注意力机制在视觉 Transformer 中的作用,将其简化为一个名为 ShiftViT 的零参数操作,发现它在分类、检测和分割等任务中表现良好,并且性能与强基线 Swin Transformer 相当甚至更好。
Jan, 2022
本文提出了一种名为 TransMix 的混合标签方法,基于 ViT 的注意力图混合标签,这种方法不需要引入额外的参数和 FLOP,并且在不同的基于 ImageNet 数据集的分类任务中都能够显著提高 ViT 的性能以及在语义分割,目标检测和实例分割上的迁移能力,同时在 4 种不同数据集的评估中也表现得更加稳健。
Nov, 2021