ConvNet 与 Transformer,监督学习与 CLIP:超越 ImageNet 准确度
比较了卷积神经网络和注意力网络的性能差异,使用新的指标展示了注意力网络的错误更贴近于人类,这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。
May, 2021
通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异,发现正则化这些表示会导致显著的性能变化,进而提出了一种简单但有效的方法来结合多个背骨架的预测,并实现了显著的性能提升。
Dec, 2023
通过 15 项单任务和多任务性能评估,系统地研究了 ConvNets 和 vision transformers 的迁移学习能力,发现 vision transformers 在 13 个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。
Aug, 2023
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争,在 ImageNet 的 top-1 准确率方面达到了 87.8%,并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。
Jan, 2022
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法,本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异,发现它们具有不同的表达方式、在数据集上具有不同的分类性能,以及对某些图像扰动的鲁棒性不同。研究结果表明,在每个测试样例中根据情况选择最佳骨干网络,分类准确性可能提高 40 个百分点以上。基于这一发现,我们提出了一种简单而强大的自适应集成多个骨干网络的方法,该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上,该方法比最佳单一骨干网络的准确性提高了 39.1%,远远超过传统的集成方法。
May, 2024
通过将 Transformer 模型逐步转化为基于卷积的模型,进行经验证实验表明,命名为 Visformer 的新架构比 Transformer 模型和卷积模型在 ImageNet 分类准确性方面表现更佳,尤其是当模型复杂度较低或者训练集较小时。
Apr, 2021
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024