Apr, 2023

MMViT: 多尺度多视角视觉 Transformer

TL;DR提出了一种名为 Multiscale Multiview Vision Transformers(MMViT)的 transformer 模型,它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图,并使用交叉注意力块将不同视图的信息融合在一起,从而实现对输入的复杂高维表示。在音频和图像分类任务上,通过实验证明了 MMViT 的有效性和达到了最先进的结果。