Nov, 2023

MLLMs增强的视觉-语言表示学习

TL;DR我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用MLLMs扩展每个图像的多个标题,通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得5.6〜35.0%和16.8〜46.1%的R@1提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对MLLMs的多方面使用的探索。