基于群组混合注意力的视觉 Transformer 的进展

Nov, 2023

基于群组混合注意力的视觉 Transformer 的进展

Advancing Vision Transformers with Group-Mix Attention

Chongjian Ge, Xiaohan Ding, Zhan Tong, Li Yuan, Jiangliu Wang...

TL;DR基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色，参数较现有模型更少，例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率，GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。

Abstract

vision transformers (ViTs) have been shown to enhance visual recognition through modeling long-range dependencies with multi-head self-attention (MHSA), which is typically formulated as Query-Key-Value computation. However, the attention map generated from the Query and Key captures on

vision transformers group-mix attention token-to-token correlations token-to-group correlations groupmixformer

发现论文，激发创造

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

MixFormer：迭代混合注意力实现的端到端跟踪

本文提出了一种基于 transformers 的简单有效的追踪框架 MixFormer，通过 Mixed Attention Module 实现了特征提取和目标信息集成的同步建模，设计了两种类型的 MixFormer 追踪器，使用不同的预训练方法，提出了减少计算成本的不对称注意机制和有效的得分预测模块，并在包括 LaSOT，TrackingNet，VOT2020，GOT-10k，OTB100 和 UAV123 等七个追踪基准中创造了最新的性能标准。

Feb, 2023

多视角组变换器与空间编码的三维形状分析

最近，基于视图的三维形状识别方法的结果已经饱和，而具有出色性能的模型由于参数规模巨大无法部署在内存有限的设备上。为了解决这个问题，我们提出了一种基于知识蒸馏的压缩方法，可以在尽可能保持模型性能的同时大大减少参数数量。

Dec, 2023

MIA-Former: 多粒度输入适应的高效和鲁棒视觉 Transformer

本文提出了一种多粒度输入自适应 Transformer 框架 MIA-Former，可以在多个粒度上调整 ViTs 的结构以适应输入图像的不同难度，并且具有改进对抗攻击鲁棒性的效果。经过实验验证，MIA-Former 能够有效地分配计算资源，并取得与 SOTA 动态 Transformer 模型相比甚至更高的准确率和更低的计算复杂度。

Dec, 2021

用均匀注意力为视觉 Transformer 提供支持

通过研究 Vision Transformers 中的 self-attention 机制密度，得出了密集交互对模型的重要性，并提出了一种新的方法 ——Context Broadcasting (CB)，有效地提高了模型的容量和泛化能力。

Oct, 2022

多视角三维重建的长程分组变换器

基于 Transformer 的多视角三维重建算法中，引入长距离分组注意力机制（LGA）以处理来自不同视角的复杂图像令牌，从而提高模型学习效果，并通过进阶上采样解码器实现相对高分辨率的体素生成，实验结果验证了该方法在多视角重建中达到了 SOTA 准确性。

Aug, 2023

优化的分组查询注意机制用于变形金刚

提出了一种激活信息驱动的方法 AsymGQA，将 MHA 不对称地分组为 GQA，并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。

Jun, 2024

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

动态分组变换器：具有动态分组注意力的通用视觉变换器骨干网络

该论文提出了一种动态分组注意力 (DG-Attention) 和一个通用的 DGT 视觉转换器的背景，可以在多个常见的视觉任务中超越现有技术，并动态地将所有查询分成多个组，为每个组选择最相关的密钥 / 值。

Mar, 2022

多尺度和令牌合并：让您的 ViT 更高效

本文提出一种新的 token pruning 方法，通过筛选关键词实现计算效率和模型效果的折衷，实验结果表明，该方法可显著降低计算成本，同时仅导致 0.1% 的 DeiT-S 识别精度下降。

Jun, 2023