ViGAT: 基于分解图注意力网络的视频自底向上事件识别和解释

Jul, 2022

ViGAT: 基于分解图注意力网络的视频自底向上事件识别和解释

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network

Nikolaos Gkalelis, Dimitrios Daskalakis, Vasileios Mezaris

TL;DR本文提出了一种纯自注意力自下而上的 ViGAT 方法，该方法将一个物体检测器和 Vision Transformer（ViT）骨架网络结合起来，以推导出视频中的物体和框架特征，然后通过一个头网络处理这些特征以完成事件识别和解释任务。

Abstract

In this paper a pure-attention bottom-up approach, called vigat, that utilizes an object detector together with a Vision Transformer (ViT) backbone network to derive object and frame features, and a head network

pure-attention vigat event recognition graph attention network object frames

发现论文，激发创造

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

在计算机视觉任务中，线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力，同时使用更少的 FLOPs 和内存。然而，它们在实际运行时速度方面的优势并不显著。为了解决这个问题，我们引入了适用于视觉的门控线性注意力（GLA），利用它的硬件感知和高效性。我们提出了方向性门控，通过双向建模来捕捉一维全局上下文，并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心，增强了并行性，减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡，优于流行的 Transformer 和基于 CNN 的模型。值得注意的是，ViG-S 仅使用参数的 27% 和 FLOPs 的 20%，在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下，ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍，节省了 90% 的 GPU 内存，运行速度快了 4.8 倍，并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。

May, 2024

面向视觉问答的关系感知图注意力网络

本研究提出了一种基于关系感知图形注意力网络（ReGAT）的 VQA 模型，该模型通过图形注意机制将每个图像编码为图形，再通过多类型的物体关系建模，以学习问题自适应的关系表示，并在 VQA 2.0 和 VQA-CP v2 数据集上优于现有的 VQA 方法，同时具有通用的关系编码器功能。

Mar, 2019

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

MobileViG：用于移动端视觉应用的基于图的稀疏注意力机制

本文提出了一种新颖的基于图的稀疏注意力机制 Sparse Vision Graph Attention（SVGA），并且设计了一种新的混合 CNN-GNN 体系结构 MobileViG，实验证明，MobileViG 在移动设备上进行图像分类、物体检测和实例分割任务上的精度和 / 或速度明显优于现有的 ViG 模型和现有移动 CNN 和 ViT 架构。

Jul, 2023

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

MaxViT：多轴视觉变压器

该研究通过引入多轴关注模型和卷积等新元素，提出了一种高效且可扩展的注意力模型，即 MaxViT。利用 MaxViT 作为骨干网络，在图像分类和物体检测等任务上都取得了领先的性能。同时，该模型还证明了其在图像生成方面的潜在优势。

Apr, 2022