视觉 Transformer 需寄存器
研究显示 ViTs 在不同的学习方法下能够学习不同的行为,并发现了一些在不同学习方法下相似的 ViT 行为,比如 Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当,并且在某些情况下对于部分任务还优于显式监督方法。此外,基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。
Dec, 2022
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023
本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。
Jun, 2020
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督 ViT 训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文通过系统的实证研究,发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差,从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型,比大规模数据集 JFT-300M 上的同类模型表现更好。
Jun, 2021
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023