LISA：利用大型语言模型进行分割推理

Aug, 2023

LISA：利用大型语言模型进行分割推理

LISA: Reasoning Segmentation via Large Language Model

Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan...

TL;DR该研究提出了一种新的推理分割任务，以激活感知系统中的推理分割能力，并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。

Abstract

Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction to identify the target objects or categories before executing visual recognition tasks. Such systems lack the ability to actively reason and comprehend implicit

perception systems reasoning segmentation lisa segmentation capability reasoning-free datasets

发现论文，激发创造

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

大型语言模型的推理分割改进基线

LISA++ 通过增加实例分割和自然对话功能，提供更详细的场景分析和更自然的多轮对话能力，将 LISA 模型更新为 LISA++，进一步提升视觉理解和交互的能力。

Dec, 2023

基于推理的大型多模态模型的 3D 零件分割

鉴于目标物体识别需求，我们介绍了一种称为 3D 物体推理部分分割的新型细分任务，旨在根据复杂和隐含的文本查询输出一个基于 3D 物体特定部分的分割蒙版，并提出了一种能够分割 3D 物体部分的模型，并生成与 3D 物体分割请求相对应的自然语言解释。

Apr, 2024

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

Reason3D：基于大规模语言模型的 3D 分割搜索和推理

Reason3D 是一种新型的多模态大型语言模型，通过点云数据和文本提示作为输入，生成文本回答和分割遮罩，实现 3D 推理分割、分层搜索、精确引用和问题回答等高级任务。

May, 2024

CoReS：推理与分割的协同舞蹈

我们引入了一种链式推理和分割（CoReS）的方法，通过引入具有顶级视觉层次结构的双链结构和上下文输入来增强多模式大型语言模型在复杂推理环境中的对象定位能力，大量实验证明了 CoReS 的卓越性能，超过了原来方法 7.1％。

Apr, 2024

LaSagnA: 语言化复杂查询段落助手

最近的研究使得大型语言模型能够生成包括边界框和遮罩在内的详细感知结果。然而，这些语言模型存在两个限制，即无法处理查询中的多个目标以及无法识别图像中查询对象的缺失。本研究中，我们发现这些问题的主要原因是训练查询的复杂度不足。因此，我们定义了复杂查询的通用序列格式。然后，在当前流程中将语义分割任务纳入以满足训练数据的要求。此外，我们提出了三种新策略来有效地处理由所提出格式的直接集成而带来的挑战。我们的模型在处理复杂查询方面的有效性通过在闭集和开集语义分割数据集上与传统方法的可比较结果进行验证。此外，我们在推理和引用分割方面胜过了一系列大型语言模型，展示了我们模型的显著能力。我们在此 https URL 上发布了代码。

Apr, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

Lenna: 语言增强推理检测助手

本文介绍了一种名为 Lenna 的语言增强推理检测助手，它利用了多模态大语言模型的强大功能并保留了位置信息用于检测，使用 ReasonDet 数据集评估了 Lenna 的推理能力并表现出卓越的性能和低训练成本。

Dec, 2023

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023