动态分组变换器:具有动态分组注意力的通用视觉变换器骨干网络
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法,其采用动态多尺度窗口对模型性能的影响进行了探索,并通过对三个数据集的详细性能评估,与相关的最新技术方法相比,DW-ViT 表现出最佳性能。
Mar, 2022
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
基于 Transformer 的多视角三维重建算法中,引入长距离分组注意力机制(LGA)以处理来自不同视角的复杂图像令牌,从而提高模型学习效果,并通过进阶上采样解码器实现相对高分辨率的体素生成,实验结果验证了该方法在多视角重建中达到了 SOTA 准确性。
Aug, 2023
基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色,参数较现有模型更少,例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率,GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。
Nov, 2023
本文介绍了动态稀疏体素变换器(DSVT),它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云,我们提出了动态稀疏窗口注意力,这将每个窗口中的一系列局部区域根据其稀疏性划分,并以完全并行的方式计算所有区域的特征。在本文中,我们的模型实现了具有广泛 3D 感知任务的最先进的性能,并且可以轻松通过 TensorRT 进行实时推理速度(27Hz)的部署。
Jan, 2023
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
通过全局感受野和几乎线性的复杂度,AnchorGT 提出了一种新颖的注意力结构,用于改进各种 GT 模型的可扩展性,实现更高的效果和更高的内存效率。
May, 2024
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021