CVPRApr, 2022
视觉 Transformer 的多模态 Token 融合
Multimodal Token Fusion for Vision Transformers
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun...
TL;DR本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态 Transformer 结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。