CageViT: 卷积激活引导的高效视觉 Transformer
本文提出了名为 CvT 的新型架构,它通过将卷积引入 ViT 中实现了性能和效率的提升,并在 ImageNet-1K 上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
本文提出了一种利用先验卷积 IB(intrinsic bias)的 Vision transformer 架构(ViTAE)来解决长程依赖建模中存在的局限性,并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。
Feb, 2022
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本论文提出了一种结合卷积神经网络和 Transformer 的新型算法 Convolution-enhanced image Transformer (CeiT),在 ImageNet 和七个下游任务中实现了与先前 Transformer 和目前最先进的卷积神经网络相当的效果,而无需大量训练数据和额外的卷积神经网络教师,同时具有更好的收敛性和更低的训练成本。
Mar, 2021
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022