CVPRApr, 2022

视觉 Transformer 的多模态 Token 融合

TL;DR本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态 Transformer 结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。