Jul, 2023

通过图像描述的方式改进多模态数据集

TL;DR通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在38个任务中,对于ImageNet表现比DataComp基准提高2%, 平均值提高4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。