Jun, 2024

纹理分析中视觉Transformer特征提取的比较调查

TL;DR该研究采用21个不同的预训练Vision Transformer架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture以及EfficientFormer被认为是更具潜力的模型。此外,尽管GFLOPs和参数数量较高,ViT-B和BeiT(v2)在GPU上的特征提取时间比ResNet50更短,从而实现了更高的效率。