Dec, 2024
PRIMA:用于推理分割的多图像视觉语言模型
PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
TL;DR本研究解决了现有像素定位模型仅在单图像设置下工作的局限性,同时填补了多图像理解模型缺乏像素级定位的空白。我们提出了一种新任务—多图像像素定位推理分割,并推出了PRIMA模型,它将像素级定位与强大的多图像推理能力结合,生成富有上下文的像素定位解释。实验结果显示PRIMA在性能上优于当前最先进的基准模型。