CvT:将卷积引入视觉 Transformer
本文提出了一种新的有效的神经网络结构 CageViT,该结构利用卷积激活来减少计算,并通过新的编码器来处理重组的标记;实验结果表明,CageViT 在图像分类挑战中的有效性优于当前最新的先进骨干。
May, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
基于远程感知数据的直方图,视觉变换器在文献中表现得较少,因此测试了卷积视觉变换器(CvT)来评估当前在许多其他视觉任务中取得最新成果的视觉变换器。CvT 结合了卷积的优势和变换器的动态注意力和全局上下文融合的优势。CvT 的表现不如 XGBoost 和 CNN 等广泛测试的方法,但显示了变换器提升产量预测的潜力。
Feb, 2024
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争,在 ImageNet 的 top-1 准确率方面达到了 87.8%,并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。
Jan, 2022
本论文提出了一种结合卷积神经网络和 Transformer 的新型算法 Convolution-enhanced image Transformer (CeiT),在 ImageNet 和七个下游任务中实现了与先前 Transformer 和目前最先进的卷积神经网络相当的效果,而无需大量训练数据和额外的卷积神经网络教师,同时具有更好的收敛性和更低的训练成本。
Mar, 2021
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022