LLM-Seg：图像分割与大型语言模型推理的桥梁

Apr, 2024

LLM-Seg：图像分割与大型语言模型推理的桥梁

LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning

Junchi Wang, Lei Ke

TL;DR通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Abstract

understanding human instructions to identify the target objects is vital for perception systems. In recent years, the advancements of Large Language Models (LLMs) have introduced new possibilities for image segmentation. In this work, we delve into →

understanding human instructions large language models (llms)reasoning segmentation llm-seg reasoning segmentation dataset (llm-seg40k)

发现论文，激发创造

LISA：利用大型语言模型进行分割推理

该研究提出了一种新的推理分割任务，以激活感知系统中的推理分割能力，并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。

Aug, 2023

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

Reason3D：基于大规模语言模型的 3D 分割搜索和推理

Reason3D 是一种新型的多模态大型语言模型，通过点云数据和文本提示作为输入，生成文本回答和分割遮罩，实现 3D 推理分割、分层搜索、精确引用和问题回答等高级任务。

May, 2024

CoReS：推理与分割的协同舞蹈

我们引入了一种链式推理和分割（CoReS）的方法，通过引入具有顶级视觉层次结构的双链结构和上下文输入来增强多模式大型语言模型在复杂推理环境中的对象定位能力，大量实验证明了 CoReS 的卓越性能，超过了原来方法 7.1％。

Apr, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

超越分割：多模卷积网络生成路网

这篇论文介绍了一种创新的道路网络生成方法，通过使用多模式大型语言模型 (LLM) 处理航空图像的道路布局，并在输入图像中生成详细的可导航道路网络。我们的模型通过独特的训练方法创造了道路网络，采用了 BLIP-2 架构与预训练的冻结图像编码器和大型语言模型相结合的方法创建了一个多功能的多模式 LLM，实验证明了我们的模型在提供精确和有价值的导航指引方面的有效性，这是增强自主导航系统的重要进展。

Oct, 2023

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

Jun, 2024

PixelLM：使用大型多模型进行像素推理

通过引入 PixelLM，一种高效且有效的大规模多模态模型，该论文解决了对涉及多个开放世界目标的图像推理任务生成像素级掩码的挑战，并在多个基准测试中表现出色，证实了各个组成部分的有效性。

Dec, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022