Mar, 2021

WIT: 基于维基百科的图像文本数据集,用于多模态多语言机器学习

TL;DR本文介绍了 Wikipedia-based Image Text(WIT)数据集,该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成,可用于多模态模型的预训练,如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势,规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。