AttentionLite: 面向视觉的高效自注意力模型
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。
May, 2021
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
该论文研究了自注意力在计算机视觉领域的应用,并提出了两种改进模型的方法,使其在速度、内存使用和准确性等方面优于传统的卷积模型,进而提出了一种名为 HaloNets 的新的自注意力模型家族,并在 ImageNet 分类基准测试中取得了最先进的准确性。
Mar, 2021
LITv2 是一种基于直接速度评估的设计原则和使用新的自我注意机制 HiLo 的高效 ViT,可以极大地提高图像分类、密集检测和分割等主流视觉任务的效率。
May, 2022
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过使用自注意力替换空间卷积操作,得出了一个完全的自注意力模型,该模型相比于基线 ImageNet 分类任务具有 12%更少的 FLOPS 和 29%更少的参数,而在 COCO 目标检测方面,与基线 RetinaNet 匹配的 mAP,但具有 39%更少的 FLOPS 和 34%更少的参数。
Jun, 2019
我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构,适合于计算资源有限的自动驾驶任务,通过减少参数数量和浮点运算来降低计算复杂性,并在性能适度下降的情况下将大小减小了 5 倍。
Jul, 2023
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022