Aug, 2023

万卷:推动英文和中文大型模型的全面多模态数据集

TL;DR本文介绍了 “Wan Juan” 数据集,一个大规模多模态数据集,包括中英文数据、文本、图像文本和视频模态,总容量超过 2TB。该数据集被用于训练 InternLM 模型,在与类似规模的模型相比的多维评估中展现出显著优势。