Nov, 2023
FMViT:多频混合视觉Transformer
FMViT: A multiple-frequency mixing Vision Transformer
TL;DR通过设计具有高频和低频特征的FMViT混合Vision Transformer模型,以及引入gMLP、RLMHSA和CFB机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的TensorRT和CoreML平台上的性能,相比现有的CNNs,ViTs和CNNTransformer混合架构,FMViT在性能和计算开销方面取得了卓越的成果。