数字病理学中视觉 Transformer 和卷积神经网络的比较研究
本研究探讨了视觉 Transformer 在医学图像分类中的优劣,并发现使用预训练模型时,视觉 Transformer 可以与卷积神经网络媲美,成为 CNN 的一种可行替代方法。
Mar, 2023
本文探讨在医学图像诊断领域中,卷积神经网络和视觉 Transformer 哪一种更优秀,发现使用预训练的视觉 Transformer 模型(尤其是自监督预训练)可以优化诊断性能。
Aug, 2021
使用大规模语言模型和 Transformer 架构,基于 ViT 模型,在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。
May, 2024
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024
通过比对 NLP 模型与 CNN 模型预测九种大肠癌生物标志物的结果,本研究表明 NLP 模型在数字病理领域的优越性,并证明相比大数据集,较小数据集下 NLP 模型得到的预测结果不比大数据集下的数字病理模型差。因此,NLP 模型已经可以成为数字病理领域的新基础模型。
Feb, 2023
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024