移动视觉 Transformer 的可分离自注意力
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
通过结合 Self-Attention 与广义卷积(包括标准卷积、空洞卷积和深度卷积),Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过引入两种增强策略实现了长距离连接和扩大的感受野,而在图像分类任务中,Vision Transformer in Convolution (TiC) 利用了 MSA-Conv,在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。
Oct, 2023
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即 MaxViT。利用 MaxViT 作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
本文提出了一种用于轻量级追踪的高效自适应混合注意力变压器架构,实现了对相关轻量级追踪策略的显著改进,达到了先进的性能,在多个数据集上运行时帧率较高,参数量较小。
Sep, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过引入单头注意力模块并利用减少空间冗余的令牌表示,本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器(SHViT),在速度和准确度之间达到了最先进的权衡。
Jan, 2024
提出 SOftmax-Free Transformer (SOFT),其采用高斯核函数替代点积相似度,从而能够通过低秩矩阵分解逼近完整的自注意力矩阵,该模型能够明显提高现有 ViT 变体的计算效率,同时具有线性复杂度,且能够容纳更长的令牌序列,优化了准确率和复杂度之间的权衡。
Jul, 2022
提出了一种有效的结构,通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。
Sep, 2023