数字病理学中视觉 Transformer 和卷积神经网络的比较研究

CVPRJun, 2022

数字病理学中视觉 Transformer 和卷积神经网络的比较研究

A comparative study between vision transformers and CNNs in digital pathology

Luca Deininger, Bernhard Stimpel, Anil Yuce, Samaneh Abbasi-Sureshjani, Simon Schönenberger...

TL;DR本研究探索了视觉 Transformer 在数字病理学全幻灯片图像中，用于四种组织类型的肿瘤检测和组织类型识别。实验结果表明，在大量未标注全幻灯片图像的预训练下，视觉 Transformer 在肿瘤检测方面比 ResNet18 表现稍好。

Abstract

Recently, vision transformers were shown to be capable of outperforming convolutional neural networks when pretrained on sufficient amounts of data. In comparison to convolutional neural networks, vision transformers

vision transformers tumor detection digital pathology whole slide images resnet18

发现论文，激发创造

预训练的 ViT 模型在医疗图像中得到了多用途的表示

本研究探讨了视觉 Transformer 在医学图像分类中的优劣，并发现使用预训练模型时，视觉 Transformer 可以与卷积神经网络媲美，成为 CNN 的一种可行替代方法。

Mar, 2023

是否该用 Transformer 代替 CNN 处理医学图像？

本文探讨在医学图像诊断领域中，卷积神经网络和视觉 Transformer 哪一种更优秀，发现使用预训练的视觉 Transformer 模型（尤其是自监督预训练）可以优化诊断性能。

Aug, 2021

卷积神经网络、ResNet 和视觉 Transformer 在胸部疾病多分类中的比较研究

使用大规模语言模型和 Transformer 架构，基于 ViT 模型，在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。

May, 2024

用于胸部 X 射线和胃肠道图像分类的视觉 Transformer

使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术，在三个医学图像数据集上比较了它们的表现，并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较，在分类不同的解剖结构、所见和异常方面，我们的 Transformer 模型优于或更有效，比 CNN 基于的方法有所改进，建议将其用作算法开发的新基准算法。

Apr, 2023

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

探索自我监督视觉变换器用于深伪检测：一种比较分析

本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络（ConvNets）在检测各种类型的深度伪造方面的有效性，重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调，在利用自监督学习和变换器进行深度伪造检测时，我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性，且同时需要较少的计算资源。

May, 2024

拥抱自然语言处理（NLP）基于数字病理学：对比基于 NLP 和卷积神经网络的深度学习管道

通过比对 NLP 模型与 CNN 模型预测九种大肠癌生物标志物的结果，本研究表明 NLP 模型在数字病理领域的优越性，并证明相比大数据集，较小数据集下 NLP 模型得到的预测结果不比大数据集下的数字病理模型差。因此，NLP 模型已经可以成为数字病理领域的新基础模型。

Feb, 2023

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

纹理分析中视觉 Transformer 特征提取的比较调查

该研究采用 21 个不同的预训练 Vision Transformer 架构，评估其在纹理识别中的性能，并与卷积神经网络和手工设计模型进行比较。结果显示，Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型，尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中，ViT-B with DINO pre-training，BeiTv2，Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外，尽管 GFLOPs 和参数数量较高，ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短，从而实现了更高的效率。

Jun, 2024