Aug, 2022

利用 Token Fusion 改进图像分类

TL;DR本文提出了一种使用 CNN 和 transformer 结构融合的方法来改善图像分类性能,通过将图像转换成特征图并分为不同的区域,然后采用三种融合方法将这些区域与 transformer 的视野融合,实现在 ImageNet 1k 上最佳分类性能。