卷积神经网络和 Transformer 对混合图像的感知类似于人类

Mar, 2022

卷积神经网络和 Transformer 对混合图像的感知类似于人类

CNNs and Transformers Perceive Hybrid Images Similar to Humans

Ali Borji

TL;DR混合图像技术（hybrid images）与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络（CNN）和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。

Abstract

hybrid images is a technique to generate images with two interpretations that change as a function of viewing distance. It has been utilized to study multiscale processing of images by the →

hybrid images multiscale processing deep learning convolutional neural networks human visual system

发现论文，激发创造

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

卷积神经网络或 Transformer 模型更像人类视觉？

比较了卷积神经网络和注意力网络的性能差异，使用新的指标展示了注意力网络的错误更贴近于人类，这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。

May, 2021

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

CiT-Net: 卷积神经网络和视觉 Transformer 手牵手进行医学图像分割

本文提出了一种新的医学图像分割混合架构，手持卷积神经网络和 Transformer，用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能，以实现更好的医学图像分割结果。

Jun, 2023

深度网络在不变物体识别中类似于人类前馈视觉

研究了深度卷积神经网络在视角变化下物体识别任务中的表现，发现在视角变化较小时，浅层网络可以优于深层网络和人类表现。但是，当面临较大的视角变化时，需要更深的层次来匹配人类表现。最深的 18 层卷积神经网络在最高变化水平下优于人类表现，使用了最类人的表征。

Aug, 2015

卷积神经网络是否可以比 Transformer 更强大？

本文通过仔细研究 Transformers 的设计，发现在提高稳健性方面，使用卷积神经网络（CNNs）设计的架构同样有效。具体来说，我们的发现分别是：a）分块输入图像，b）增大卷积核尺寸，以及 c）减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单，无需 attention-like 操作的卷积神经网络架构，其稳健性与甚至优于 Transformers。

Jun, 2022

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

FuseFormer: 用于视觉和热图像融合的 Transformer

通过整合转换器模型的多尺度融合策略，本研究提出了一种新的图像融合方法，以克服使用评价指标作为损失函数所带来的局限性，并改善了整体方法的效果。

Feb, 2024

网络结构之战：CNN、Transformer 和 MLP 的实证研究

本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣，并在 SPACH 框架下进行了实验，结果显示，使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。

Aug, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020