GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型，使用自由发挥，从头开始在小数据集上训练

Apr, 2024

GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型，使用自由发挥，从头开始在小数据集上训练

GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets

Dongjing Shan, guiqiang chen

TL;DR使用基于图卷积投影和图池化的图神经网络（GvT），并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题，以及应用图池化来有效降低标记数量和聚合语义信息，实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。

Abstract

vision transformers (ViTs) have achieved impressive results in large-scale image classification. However, when training from scratch on small datasets, there is still a significant performance gap between ViTs and Convolutional Neural Networks (CNNs), which is attributed to the lack of

vision transformers graph-based vision transformer inductive bias graph convolutional projection graph-pooling

发现论文，激发创造

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

GTP-ViT：基于图卷积传播的高效视觉 Transformer

基于图的标记传播方法（GTP）通过将不重要的标记信息传播到与之相关性更大的标记上，从而在降低计算复杂度的同时保持了被剔除标记的重要信息，实现了高效的 Vision Transformers（ViTs）。

Nov, 2023

ConViT：利用软卷积归纳偏置提升视觉 Transformer 性能

本文提出了一种形式的位置自注意力机制：门控位置自注意力，该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络，通过在 ImageNet 数据集上的实验表明，该网络在图像分类任务上拥有优异的性能和更高的样本效率，并提高了对定位特征的注意力。

Mar, 2021

GMTR: 图匹配变换器

通过引入跨注意力模块和基于关键点的中心裁剪策略进行空间信息提取，QueryTrans 和 GMTR 分别提出了一种用于视觉匹配的新方法，其中 GMTR 在标准 GM 基准测试上表现竞争力强，而 QueryTrans 提高了 NGMv2 和 BBGM 的准确率。

Nov, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

TVT: 在小数据集上无需训练的视觉 Transformer 搜索

本文提出了一种无需训练的视觉 Transformer（ViT）架构搜索方法，通过使用教师模型，利用具有零成本代理的方式搜索更好的 ViT，并在各种小型数据集和搜索空间上展开了大量实验，证明了该方法优于现有的无训练搜索方法。

Nov, 2023