卷积神经网络或Transformer模型更像人类视觉?
研究了深度卷积神经网络在视角变化下物体识别任务中的表现,发现在视角变化较小时,浅层网络可以优于深层网络和人类表现。但是,当面临较大的视角变化时,需要更深的层次来匹配人类表现。最深的18层卷积神经网络在最高变化水平下优于人类表现,使用了最类人的表征。
Aug, 2015
本文比较了人类视觉系统和深度神经网络(DNN)在图像退化方面的泛化能力,发现人类视觉系统更加耐受于图像处理,而当信号变弱时,人类和DNN的分类误差模式逐渐分离,这表明在视觉识别方面,人类和DNN之间仍存在显著差异。
Jun, 2017
通过对机器注意力机制和人类视觉注意力关系的系统研究,本文发现人类关注可以作为注意驱动任务有意义的基准,并证明更接近人工注意力机制的性能更好,同时更好的注意力对于更高级别的计算机视觉任务的可解释性也有显著提升。
Jun, 2019
本综述介绍了卷积神经网络(CNN)在计算神经科学中作为良好模型的特征,以及这些模型如何在理解和实验生物视觉方面提供启示,并讨论了在基本物体识别之外的视觉研究中使用CNN的新兴机会。
Jan, 2020
通过15项单任务和多任务性能评估,系统地研究了ConvNets和vision transformers的迁移学习能力,发现vision transformers在13个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中self-attention在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
该论文探讨了神经网络架构在解决视觉任务时存在的局限性,与人类学习抽象概念的策略不同。研究利用一组新的图像转换方法,对人类和网络在对象识别任务上进行了评估,发现常见网络的性能迅速下降,而人类能够以高精度识别对象。
May, 2022
研究发现,尽管深度神经网络(DNNs)的成功主要是由于计算规模,而不是基于生物智能的洞见,但是随着精度的提高,DNNs与人类视觉策略的一致性逐渐降低,但是神经谐振器的出现可以使DNNs与人类的视觉策略相一致并提高分类精度。
Nov, 2022
本文回顾了当前深度神经网络在作为人类核心物体识别合适的行为模型方面存在的证据,并指出深度神经网络作为计算模型的质量是一个多维概念,需要在建模目标方面达成明确的理解与共识。本文通过分析大量的人类感知和深度神经网络核心物体识别能力的心理物理和计算机探究,得出深度神经网络作为科学工具的价值性,同时认为深度神经网络目前只是作为人类核心物体识别行为的有前途但尚不充分的计算模型。在此过程中,我们驳斥了一些关于深度神经网络在视觉科学中存在的神话。
May, 2023
在计算机视觉中使用的深度神经网络已被证明存在许多社会偏见,如性别偏见。视觉Transformer(ViTs)在图像分类等许多任务中比卷积神经网络(CNNs)表现更出色。然而,鉴于在计算机视觉中减轻偏见的研究主要集中在CNNs上,评估不同网络架构对偏见放大潜力的影响是重要的。因此,本文引入了一种新的度量方法来衡量架构中的偏见,即准确率差异。我们评估了这两种架构属于大型多模态模型的一部分时,偏见放大的情况,并评估了对比性语言图像预训练的不同图像编码器。我们的实验表明,由于在特征提取和嵌入以及不同的学习属性方面采用的不同技术,架构可以在放大社会偏见方面发挥作用。本研究发现,与CNNs相比,ViTs更容易放大性别偏见。
Sep, 2023