DaViT: 双注意力视觉Transformer
本文提出了一种形式的位置自注意力机制:门控位置自注意力,该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积-自注意力神经网络,通过在 ImageNet 数据集上的实验表明,该网络在图像分类任务上拥有优异的性能和更高的样本效率,并提高了对定位特征的注意力。
Mar, 2021
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer(ViT)变体。
Jun, 2021
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT在ImageNet线性探针评估中达到81.3%的top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT在18个数据集中的17个数据集上优于其受监督的对应物。代码和模型可公开获取:该URL。
Jun, 2021
本文提出了一种新的局部自注意机制BOAT,该机制在特征空间中对局部窗口中的补丁进行聚类,并在每个聚类中进行自我注意。将BOAT集成进CSWin模型,实验结果表明,BOAT-CSWin模型在多个基准数据集上表现良好,明显优于现有的卷积神经网络模型和视觉Transformer。
Jan, 2022
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即MaxViT。利用MaxViT作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
本文提出了名为Dual Vision Transformer (Dual-ViT)的新型Transformer结构,在保持准确度的前提下,通过综合运用语义路径和像素路径,将全局语义压缩成更高效的先验信息,进而实现了减少计算复杂度的目的,并在实验中表现出比SOTA Transformer结构更高的准确度。
Jul, 2022
提出了一种轻量级和高效的视觉变换模型DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了DualToken-ViT的有效性,其在ImageNet-1K数据集上取得了75.4%和79.4%的准确率,而在只有0.5G和1.0G的FLOPs下,我们的1.0G FLOPs的模型的性能超过了使用全局标记的LightViT-T模型0.7%。
Sep, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本研究提出了一种新的混合视觉transformer模型(ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024