Jan, 2024

M^2-Encoder: 大规模高效预训练推动双语图像-文本理解

TL;DR我们介绍了一个包含60亿个图像-文本配对的双语(中英文)数据集BM-6B,通过提出一种新颖的分组聚合方法来处理此规模的数据集,大大减少了通信开销和GPU内存需求,从而提高了训练速度,我们预训练了一系列双语图像-文本基础模型,并在BM-6B上取得了提升视觉和文本理解能力的成果,这些模型在多模态检索和分类任务方面树立了新的基准,并且我们的最大模型在零样本分类设置下,在ImageNet上的top-1准确率分别超过了以前报道的SoTA方法2.2%和21.1%。