Apr, 2024

大型多模态模型的视觉增量生成器用于半监督组合图像检索

TL;DR我们提出了一种新的半监督图像检索方法,通过在辅助数据中搜索参考图像及其相关目标图像,并学习基于大型语言模型的视觉差异生成器(VDG),以生成描述两个图像之间视觉差异(即视觉增量)的文本。VDG 具备流畅的语言知识和模型无关性,能够生成伪三元组来提升组合图像检索模型的性能。我们的方法显著改进了现有的监督学习方法,并在组合图像检索基准测试中取得了最先进的结果。