Oct, 2023

NEUCORE:用于组合图像检索的神经概念推理

TL;DR综合图像检索通过结合参考图像和文本修饰器来识别所需的目标图像是一项具有挑战性的任务,需要模型理解视觉和语言模态及其相互作用。本研究提出了一种名为 NEUral COncept REasoning (NEUCORE) 模型,将多模态理解移动到概念级细粒度,学习多模态概念对齐,从而识别与文本修饰器相对应的参考或目标图像的视觉位置。我们的方法,在三个数据集上进行了评估,并取得了最先进的结果。