Jun, 2024

MINT-1T:将开源多模态数据放大 10 倍:一万亿令牌的多模态数据集

TL;DR介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T,其中包括十亿个文本标记和三十亿个图像,并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。