Jan, 2024

M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

TL;DR我们介绍了一个包含 60 亿个图像 - 文本配对的双语(中英文)数据集 BM-6B,通过提出一种新颖的分组聚合方法来处理此规模的数据集,大大减少了通信开销和 GPU 内存需求,从而提高了训练速度,我们预训练了一系列双语图像 - 文本基础模型,并在 BM-6B 上取得了提升视觉和文本理解能力的成果,这些模型在多模态检索和分类任务方面树立了新的基准,并且我们的最大模型在零样本分类设置下,在 ImageNet 上的 top-1 准确率分别超过了以前报道的 SoTA 方法 2.2% 和 21.1%。