ViTAS: 视觉 Transformer 架构搜索
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。
Sep, 2021
本文提出了一种训练无需的 Transformer 架构搜索方法,使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性,从而大大提高了在 ViT 搜索空间的效率,并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。
Mar, 2022
提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
本研究提出了一种基于卷积神经网络的归纳偏差来加速模型收敛训练的方法,不再需要观像变换器(ViTs)使用大规模的预训练数据。实验结果表明,加入归纳偏差能够显著加速 ViTs 收敛速度并用更少的参数胜过传统 CNNs。
Dec, 2021
本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能,特别地,我们研究了令牌嵌入层的作用,引入了卷积嵌入(CE),并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。 我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中,有效地提高了相应的性能,并释放了一组高效的混合 CNN / ViT,名为 CETNets,可作为通用视觉骨干。
Jul, 2022
本文介绍了一种名为 ChannelViT 的模型,通过引入 Hierarchical Channel Sampling 技术对 ViT 进行改进,以增强其在多通道图像领域中的应用能力,并证明了其在分类任务上的性能优于 ViT,即使在测试期间只使用部分输入通道,ChannelViT 仍能良好地推广。同时,通过实验证明,Hierarchical Channel Sampling 作为一种简单直接的技术,可以作为 ViT 训练的有效正则化器,使得 ChannelViT 能够在稀疏传感器条件下,在有限访问所有通道的情况下有效推广,突出了其在稀疏数据情况下的潜力。
Sep, 2023
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022