SHViT:带有内存高效宏设计的单头视觉 Transformer
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024
提出了一种线性复杂度的分离 self-attention 方法,使用此方法的 mobileViTv2 模型在移动设备上运行速度为 MobileViT 的 3.2 倍,同时在 ImageNet 数据集上取得 75.6% 的 top-1 准确率,比 MobileViT 高 1%。
Jun, 2022
通过引入一个新颖的通道混洗模块,我们提出了一种改进小型 Vision Transformers 的方法,展示了纯自注意力模型在计算资源受限环境中的潜力。
Oct, 2023
本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT,利用 HAT 方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
本研究提出了 Hierarchical Visual Transformer (HVT) 模型,通过逐步分池视觉标记以缩短序列长度降低计算成本,从而改进了图像分类任务的性能,并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。
Mar, 2021
本文提出了一种名为 HiViT 的分层视觉转换器的设计,该设计在 MIM 中具有高效性和良好的性能,通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,将蒙版单元序列化为普通视觉变换器,经实证研究表明,在 ImageNet-1K 上运行 MAE,HiViT-B 相对于 ViT-B 的准确率提高了 0.6%,比 Swin-B 快了 1.9 倍,表现提高泛化到检测和分割等下游任务。
May, 2022
HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成,探索异构分支设计,减少线性层中的冗余并增强注意力块的表现力,从而在 ADE20K 和 Cityscapes 数据集达到 50.20%和 83.16%的 mIoU 优化性能和效率,比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU,参数节省 28%,FLOPs 减少 21%。
Nov, 2021