动态分组变换器：具有动态分组注意力的通用视觉变换器骨干网络

IJCAIMar, 2022

动态分组变换器：具有动态分组注意力的通用视觉变换器骨干网络

Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group Attention

Kai Liu, Tianyi Wu, Cong Liu, Guodong Guo

TL;DR该论文提出了一种动态分组注意力 (DG-Attention) 和一个通用的 DGT 视觉转换器的背景，可以在多个常见的视觉任务中超越现有技术，并动态地将所有查询分成多个组，为每个组选择最相关的密钥 / 值。

Abstract

Recently, transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by each query attending to all keys/values, various methods have constrained the range of →

transformers dg-attention dgt vision tasks attention

发现论文，激发创造

DAT++：具有可变形注意力的空间动态视觉变换器

通过引入一种新的可变形多头注意力模块，Deformable Attention Transformer（DAT）有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题，从而提高视觉识别任务的性能。实验证明，DAT 在各种视觉识别基准测试中取得了最先进的结果，包括 85.9% 的 ImageNet 准确率，54.5 和 47.0 的 MS-COCO 实例分割 mAP，以及 51.5 的 ADE20K 语义分割 mIoU。

Sep, 2023

超越固定关注窗口：动态窗口视觉变换器

本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法，其采用动态多尺度窗口对模型性能的影响进行了探索，并通过对三个数据集的详细性能评估，与相关的最新技术方法相比，DW-ViT 表现出最佳性能。

Mar, 2022

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

多视角三维重建的长程分组变换器

基于 Transformer 的多视角三维重建算法中，引入长距离分组注意力机制（LGA）以处理来自不同视角的复杂图像令牌，从而提高模型学习效果，并通过进阶上采样解码器实现相对高分辨率的体素生成，实验结果验证了该方法在多视角重建中达到了 SOTA 准确性。

Aug, 2023

基于群组混合注意力的视觉 Transformer 的进展

基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色，参数较现有模型更少，例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率，GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。

Nov, 2023

DSVT：具有旋转集的动态稀疏体素变换器

本文介绍了动态稀疏体素变换器（DSVT），它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云，我们提出了动态稀疏窗口注意力，这将每个窗口中的一系列局部区域根据其稀疏性划分，并以完全并行的方式计算所有区域的特征。在本文中，我们的模型实现了具有广泛 3D 感知任务的最先进的性能，并且可以轻松通过 TensorRT 进行实时推理速度（27Hz）的部署。

Jan, 2023

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

AnchorGT：用于可扩展图变换器的高效灵活的注意力架构

通过全局感受野和几乎线性的复杂度，AnchorGT 提出了一种新颖的注意力结构，用于改进各种 GT 模型的可扩展性，实现更高的效果和更高的内存效率。

May, 2024

特征融合视觉 Transformer 用于细粒度视觉分类

本文提出了一个基于 Transformer 的框架，通过聚合特征来处理细粒度视觉分类任务，其中引入了一种新的令牌选择模块（MAWS）来引导网络有效地选择具有判别性的令牌，从而实现了最先进的性能。

Jul, 2021