无 Softmax 的线性变换器
提出了一种 softmax-free transformer 或 SOFT 方法,通过使用高斯内核函数替换点积相似性,而不需要标准化以消除 softmax,在计算复杂度上具有线性复杂度,并显著提高了已有 ViT 变种的计算效率。
Oct, 2021
本文提出了一种名为 X-ViT 的视觉变换模型,其采用线性复杂度的自注意力机制代替了传统的二次复杂度算法,在图像分类和密集预测任务中表现优异。
May, 2022
我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续改进的性能。
Aug, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022
本文提出了一种名为 Castling-ViT 的框架,该框架结合使用线性角度注意力和掩码 Softmax 的二次注意力模块,旨在同时学习全局和局部上下文,但在 ViT 的推理过程中仅使用线性角度的注意力模块,实现了降低计算量、提高精度的优化效果。
Nov, 2022
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021