MMNov, 2023

GLaMM: 像素 grounding 大规模多模态模型

TL;DRGLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型,在图像和文本领域中以不同粒度的方式与模型进行交互,同时通过 GLaMM,还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。