Mar, 2024

多模态指导的细粒度视觉感知语言模型优化

TL;DR提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果,包括多模态参考分割和区域级参考表达生成。