FlexiViT:一模型多尺寸贴片处理
本文提出了一种新型的多路径视觉 Transformer(MPViT),通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌,将令牌按比例分为多个分支,并对分支进行处理,从而获得丰富的、多尺度的特征表示,在各项指标上均优于当前其他前沿网络,具有广泛的应用前景。
Dec, 2021
NaViT 使用序列打包技术处理任意分辨率和长宽比的输入图像,可以应用于图像分类、目标检测和语义分割等任务,并且在鲁棒性和公平性基准测试中显示出良好的性能。
Jul, 2023
视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。
Mar, 2024
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文提出了 AdaViT,一个自适应的计算框架,旨在提高视觉变换器的推理效率,而只有 0.8%的准确率下降,并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。
Nov, 2021
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
通过将卷积干部替换为小型的步幅为 2 的 3*3 卷积,研究人员证明了将视觉变换器模型的初始处理更改为标准卷积干部可以显著提高最终模型的稳定性,并提高峰值性能.
Jun, 2021
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021