BriefGPT.xyz
Ask
alpha
关键词
audio and image classification
搜索结果 - 1
MMViT: 多尺度多视角视觉 Transformer
提出了一种名为 Multiscale Multiview Vision Transformers(MMViT)的 transformer 模型,它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图,并使用交叉注意
→
PDF
a year ago
Prev
Next