LISA:利用大型语言模型进行分割推理
通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割,这是一项新颖任务,通过大型语言模型推理来解释和识别隐含的用户意图,从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架,有效地将当前的基础分割模型和 LLM 连接起来,通过掩码提案选择实现。同时,我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明,我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外,我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。
Apr, 2024
LISA++ 通过增加实例分割和自然对话功能,提供更详细的场景分析和更自然的多轮对话能力,将 LISA 模型更新为 LISA++,进一步提升视觉理解和交互的能力。
Dec, 2023
鉴于目标物体识别需求,我们介绍了一种称为 3D 物体推理部分分割的新型细分任务,旨在根据复杂和隐含的文本查询输出一个基于 3D 物体特定部分的分割蒙版,并提出了一种能够分割 3D 物体部分的模型,并生成与 3D 物体分割请求相对应的自然语言解释。
Apr, 2024
我们扩展了多模态大语言模型(MLLMs)的输出,通过赋予其分割能力,从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架,利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割,从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。
Mar, 2024
Reason3D 是一种新型的多模态大型语言模型,通过点云数据和文本提示作为输入,生成文本回答和分割遮罩,实现 3D 推理分割、分层搜索、精确引用和问题回答等高级任务。
May, 2024
我们引入了一种链式推理和分割(CoReS)的方法,通过引入具有顶级视觉层次结构的双链结构和上下文输入来增强多模式大型语言模型在复杂推理环境中的对象定位能力,大量实验证明了 CoReS 的卓越性能,超过了原来方法 7.1%。
Apr, 2024
最近的研究使得大型语言模型能够生成包括边界框和遮罩在内的详细感知结果。然而,这些语言模型存在两个限制,即无法处理查询中的多个目标以及无法识别图像中查询对象的缺失。本研究中,我们发现这些问题的主要原因是训练查询的复杂度不足。因此,我们定义了复杂查询的通用序列格式。然后,在当前流程中将语义分割任务纳入以满足训练数据的要求。此外,我们提出了三种新策略来有效地处理由所提出格式的直接集成而带来的挑战。我们的模型在处理复杂查询方面的有效性通过在闭集和开集语义分割数据集上与传统方法的可比较结果进行验证。此外,我们在推理和引用分割方面胜过了一系列大型语言模型,展示了我们模型的显著能力。我们在此 https URL 上发布了代码。
Apr, 2024
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
本文介绍了一种名为 Lenna 的语言增强推理检测助手,它利用了多模态大语言模型的强大功能并保留了位置信息用于检测,使用 ReasonDet 数据集评估了 Lenna 的推理能力并表现出卓越的性能和低训练成本。
Dec, 2023