Jun, 2023

M$^3$IT: 多模态多语言指令调整的大规模数据集

TL;DR本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集,其中包含了 40 个经过精心筛选的数据集,共 2.4 百万个实例和 400 个任务指令,可用于优化视觉语言模型的人类指令对齐,同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。