Dec, 2023

4M:大规模多模态蒙版建模

TL;DR通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。