Apr, 2024

LLM-Seg:图像分割与大型语言模型推理的桥梁

TL;DR通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割,这是一项新颖任务,通过大型语言模型推理来解释和识别隐含的用户意图,从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架,有效地将当前的基础分割模型和 LLM 连接起来,通过掩码提案选择实现。同时,我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明,我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外,我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。