Dec, 2023

视觉 Transformer 是否比新生儿视觉系统更需要数据?

TL;DR视觉变换器 (ViTs) 是许多计算机视觉基准测试的最佳模型,可以准确预测对象识别任务上的人类行为。然而,研究人员对使用 ViTs 作为生物学习模型的价值产生了质疑,因为人们认为 ViTs 需要比大脑更多的训练数据才能达到类似的性能水平。为了测试这个假设,我们通过对 ViTs 和新生小鸡进行平行控制饲养实验,直接比较了它们的学习能力。当 ViTs 在新生小鸡的视角下进行训练时,ViTs 能够解决与小鸡相同的视角不变的对象识别任务。因此,ViTs 并不比新生视觉系统更加贪婪于数据:在贫乏的视觉环境中,两者都学习到了视角不变的对象表示。ViTs 的灵活和通用的基于注意力的学习机制与新生动物可用的具体数据流似乎足以推动动物样的对象识别的发展。