Fibottention: 多头多视线接纳的初级视觉表征学习

Jun, 2024

Fibottention: 多头多视线接纳的初级视觉表征学习

Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads

Ali Khaleghi Rahimian, Manish Kumar Govind, Subhajit Maity, Dominick Reilly, Christian Kümmerle...

TL;DR通过引入 Fibonacci 序列，将 Fibottention 机制嵌入多种视觉任务的 Transformer 架构中，可以在保持计算开销较低的同时，显著提升图像分类、视频理解和机器人学习任务中 ViT 及其变体的性能。

Abstract

visual perception tasks are predominantly solved by vision transformer (ViT) architectures, which, despite their effectiveness, encounter a computational bottleneck due to the quadratic complexity of computing se

visual perception tasks vision transformer computational complexity sparse self-attention fibottention

发现论文，激发创造

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

视觉 Transformer 中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

使用注意力映射和前馈神经网络压缩的视觉 Transformer

本文提出了一种名为 attention map hallucination 和 FFN compaction 的技术，可以帮助减少 Vision Transformer 里的重叠和获得更好的性能。

Jun, 2023

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023