Jun, 2023
OBELISC: 一个开放的大规模的筛选过的交错图像文本数据集
OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh...
TL;DR本文介绍了一个大型多模式模型数据集(OBELISC 数据集),由 141 亿个网页、353 亿个相关图像和 1150 亿个文本标记组成,在此数据集上训练出的模型在各种多模态测试中获得了有竞争力的性能表现。