Dec, 2024

通过指令感知对比学习的组成图像检索

TL;DR本文解决了组合图像检索(CIR)中指令理解不足的问题,提出了一种新颖的嵌入方法,利用经过指令调整的多模态大语言模型(MLLM)生成复合表示。研究表明,该方法显著增强了模型的指令执行能力,实验证明在多个数据集上的表现超越了当前最先进的基线,具有重要的应用潜力。