卷积神经网络和 Transformer 对混合图像的感知类似于人类
本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述,其中融合了卷积和自注意力机制,重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。
May, 2023
比较了卷积神经网络和注意力网络的性能差异,使用新的指标展示了注意力网络的错误更贴近于人类,这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。
May, 2021
本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络(CMTs),通过捕捉图像中的长程依赖和建模本地特征,实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。
Jul, 2021
本文提出了一种新的医学图像分割混合架构,手持卷积神经网络和 Transformer,用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能,以实现更好的医学图像分割结果。
Jun, 2023
研究了深度卷积神经网络在视角变化下物体识别任务中的表现,发现在视角变化较小时,浅层网络可以优于深层网络和人类表现。但是,当面临较大的视角变化时,需要更深的层次来匹配人类表现。最深的 18 层卷积神经网络在最高变化水平下优于人类表现,使用了最类人的表征。
Aug, 2015
本文通过仔细研究 Transformers 的设计,发现在提高稳健性方面,使用卷积神经网络(CNNs)设计的架构同样有效。具体来说,我们的发现分别是:a)分块输入图像,b)增大卷积核尺寸,以及 c)减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单,无需 attention-like 操作的卷积神经网络架构,其稳健性与甚至优于 Transformers。
Jun, 2022
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
通过整合转换器模型的多尺度融合策略,本研究提出了一种新的图像融合方法,以克服使用评价指标作为损失函数所带来的局限性,并改善了整体方法的效果。
Feb, 2024
本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣,并在 SPACH 框架下进行了实验,结果显示,使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。
Aug, 2021
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020