视觉 Transformer 是否比新生儿视觉系统更需要数据？

Dec, 2023

视觉 Transformer 是否比新生儿视觉系统更需要数据？

Are Vision Transformers More Data Hungry Than Newborn Visual Systems?

Lalit Pandey, Samantha M. W. Wood, Justin N. Wood

TL;DR视觉变换器 (ViTs) 是许多计算机视觉基准测试的最佳模型，可以准确预测对象识别任务上的人类行为。然而，研究人员对使用 ViTs 作为生物学习模型的价值产生了质疑，因为人们认为 ViTs 需要比大脑更多的训练数据才能达到类似的性能水平。为了测试这个假设，我们通过对 ViTs 和新生小鸡进行平行控制饲养实验，直接比较了它们的学习能力。当 ViTs 在新生小鸡的视角下进行训练时，ViTs 能够解决与小鸡相同的视角不变的对象识别任务。因此，ViTs 并不比新生视觉系统更加贪婪于数据：在贫乏的视觉环境中，两者都学习到了视角不变的对象表示。ViTs 的灵活和通用的基于注意力的学习机制与新生动物可用的具体数据流似乎足以推动动物样的对象识别的发展。

Abstract

vision transformers (ViTs) are top performing models on many computer vision benchmarks and can accurately predict human behavior on object recognition tasks. However, researchers question the value of using ViTs

vision transformers biological learning object recognition data hungry view invariant object recognition

发现论文，激发创造

教学至关重要：探讨监督在视觉 Transformer 中的作用

研究显示 ViTs 在不同的学习方法下能够学习不同的行为，并发现了一些在不同学习方法下相似的 ViT 行为，比如 Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当，并且在某些情况下对于部分任务还优于显式监督方法。此外，基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。

Dec, 2022

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

超越感知之门：视觉转换器表示对象之间关系

视觉变换器（ViTs）在各种情境下取得了最先进的性能，但在涉及视觉关系的任务中却展现出惊人的失误。本文从机械性可解释性的角度研究了 ViTs 用于执行抽象视觉推理的高层视觉算法，并通过一个关系推理任务的案例研究，发现 ViTs 通常表现出两个完全不同的处理阶段，这些阶段在没有明显的归纳偏差的情况下：1）感知阶段，在此阶段提取并存储局部对象特征，2）关系阶段，在此阶段比较对象表示。通过理解 ViTs 的离散处理阶段，可以更精确地诊断和纠正现有和将来模型的缺陷。

Jun, 2024

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

卷积神经网络或 Transformer 模型更像人类视觉？

比较了卷积神经网络和注意力网络的性能差异，使用新的指标展示了注意力网络的错误更贴近于人类，这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。

May, 2021

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

Vision Transformers 的数据、增强和正则化训练

本文通过系统的实证研究，发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差，从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型，比大规模数据集 JFT-300M 上的同类模型表现更好。

Jun, 2021