BinaryViT:将二值化 Transformer 推向卷积模型
本论文提出了一种名为 BinaryViT 的方法,通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题,使得其在计算和存储资源受限的设备上也能有更好的运行表现。
May, 2023
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本研究提出了一种基于卷积神经网络的归纳偏差来加速模型收敛训练的方法,不再需要观像变换器(ViTs)使用大规模的预训练数据。实验结果表明,加入归纳偏差能够显著加速 ViTs 收敛速度并用更少的参数胜过传统 CNNs。
Dec, 2021
ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型,通过三值量化的方式来平衡效率和准确性,实现了在存储和计算开销方面的高效扩展。实验证明,ViT-1.58b 与全精度 ViT 相比,在减少存储使用和计算成本方面取得了显著的成果,从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力,并为实际应用中高效模型部署的广泛讨论做出了贡献。
Jun, 2024
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
提出了一种有效的结构,通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。
Sep, 2023
本研究探讨了视觉 Transformer 在医学图像分类中的优劣,并发现使用预训练模型时,视觉 Transformer 可以与卷积神经网络媲美,成为 CNN 的一种可行替代方法。
Mar, 2023