Nov, 2024

BLIP3-KALE:知识增强的大规模密集字幕

TL;DR该研究解决了描述性合成字幕与事实性网页规模替代文本之间的差距,提出了一种新的KALE数据集,该数据集包含2.18亿对图像-文本对。通过结合合成密集图像字幕和网页规模替代文本的两阶段方法,生成了具备事实依据的图像字幕,实验表明KALE数据集能显著提升多模态模型的能力和知识水平。