Dec, 2023

4M:大规模多模态蒙版建模

TL;DR通过提出一种名为4M的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入/输出模态统一到一个Transformer编码器-解码器模型中进行训练,论文展示了4M在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。