CAT: 视觉 Transformer 中的交叉注意力
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文提出了一种通用的跨注意力变换器模块来解决一次性物体检测中难以准确利用语义相似度和泛化的问题,并通过在 COCO、VOC 和 FSOD 等数据集上的大量实验表明其有效性和效率。
Apr, 2021
本文提出了一种基于 Point Cross-Attention Transformer 的新型端到端网络结构,将多尺度特征通过两个不同的跨注意力变换器分支进行组合,并引入一种有效的形状分类模型,通过计算不同分支的单类标记与注意图来减少计算负担,实验表明该方法在形状分类,部分分割和语义分割任务中表现优异。
Apr, 2023
本文介绍了基于交叉协方差矩阵的交叉协方差注意力(XCA),用于高分辨率图像的高效处理。文章基于 XCA 构建了交叉协方差图像变换器(XCiT),并在多个视觉基准测试中取得了优异的结果,包括 ImageNet-1k 上的图像分类和自监督特征学习,COCO 上的目标检测和实例分割以及 ADE20K 上的语义分割。
Jun, 2021
本篇论文提出了一种新的交叉聚合变压器(CAT)模型,并引入矩形窗口自注意力(Rwin-SA)与轴向移位操作来扩大注意力区域并跨多个窗口聚合特征,同时提出了本地补充模块来增强变压器的全局 - 局部耦合性能,实验结果表明,CAT 在多个图像修复应用中优于最新的若干方法。
Nov, 2022
本文提出了一种新颖的注意力机制 Causal Attention (CATT),用于消除现有基于注意力的视觉语言模型中一直存在的混淆效应,CATT 可替换任何注意力模块,可大幅提高各种流行的注意力模型的性能,尤其在大规模预训练中具有潜力。
Mar, 2021
该研究论文提出了一种基于 Patch-to-Cluster attention 的 ViT 模型,通过聚类学习从而获得更好的记号以及更好的模型解释性能,并在 ImageNet-1k、MS-COCO 物体检测和实例分割以及 MIT-ADE20k 语义分割三个基准测试中获得了比 SWin 和 PVTs 更好的表现。
Mar, 2022
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
该研究探讨了文本条件扩散模型在推理过程中的跨注意力的作用。研究发现,跨注意力输出在几个推理步骤后趋于一个固定点。因此,收敛的时间点自然地将整个推理过程分为两个阶段:初始的语义规划阶段,此阶段模型依赖于跨注意力来规划与文本相关的视觉语义;以及接下来的提高保真度阶段,在此阶段模型试图根据之前规划的语义生成图像。令人惊讶的是,在提高保真度阶段忽略文本条件不仅降低计算复杂度,而且保持了模型的性能。这产生了一种简单且无需训练的有效生成方法,称为 TGATE,它在收敛后缓存跨注意力输出,并在剩余推理步骤中保持固定。我们在 MS-COCO 验证集上的实证研究证实了其有效性。TGATE 的源代码可在此 https URL 中获取。
Apr, 2024
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022