Mar, 2025

ImageScope:通过大型多模态模型集体推理统一语言指导的图像检索

TL;DR本研究解决了现有语言指导图像检索(LGIR)方法相互独立、系统复杂性高的问题。提出的ImageScope框架通过集体推理,利用语言的组合特性,将LGIR任务统一为通用的文本到图像检索过程,显著提高了检索结果的准确性和可靠性。实验结果表明,ImageScope在六个LGIR数据集上优于竞争基线,进一步验证了其设计的有效性。