Dec, 2023

GSVA:通过多模态大型语言模型进行广义分割

TL;DR该研究提出了广义引用表达分割(GRES)的问题,并引入了 Multimodal Large Language Models(MLLMs)的方法来解决这个问题,最终通过 Generalized Segmentation Vision Assistant(GSVA)在 gRefCOCO 数据集上取得了显著的改进和新的记录。