LaSagnA: 语言化复杂查询段落助手

Apr, 2024

LaSagnA: Language-based Segmentation Assistant for Complex Queries

Cong Wei, Haoxian Tan, Yujie Zhong, Yujiu Yang, Lin Ma

TL;DR最近的研究使得大型语言模型能够生成包括边界框和遮罩在内的详细感知结果。然而，这些语言模型存在两个限制，即无法处理查询中的多个目标以及无法识别图像中查询对象的缺失。本研究中，我们发现这些问题的主要原因是训练查询的复杂度不足。因此，我们定义了复杂查询的通用序列格式。然后，在当前流程中将语义分割任务纳入以满足训练数据的要求。此外，我们提出了三种新策略来有效地处理由所提出格式的直接集成而带来的挑战。我们的模型在处理复杂查询方面的有效性通过在闭集和开集语义分割数据集上与传统方法的可比较结果进行验证。此外，我们在推理和引用分割方面胜过了一系列大型语言模型，展示了我们模型的显著能力。我们在此 https URL 上发布了代码。

Abstract

Recent advancements have empowered large language models for vision (vLLMs) to generate detailed perceptual outcomes, including bounding boxes and →

large language models for vision bounding boxes masks complex queries semantic segmentation

发现论文，激发创造

LISA：利用大型语言模型进行分割推理

该研究提出了一种新的推理分割任务，以激活感知系统中的推理分割能力，并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。

Aug, 2023

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

基于大语言模型的小样本分类与分割代理

利用大型语言模型作为任务规划者，视觉模型作为工具，通过观察支持图像和使用语境学习指导大型语言模型，利用其总结和推理能力对查询图像进行分类和分割，从而在无需训练的情况下解决了少样本图像分类和分割问题，并在 Pascal-5i 数据集上取得了最先进的性能。

Nov, 2023

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Nov, 2023

通用粗细视觉语言模型设计：万能任务大师

这篇研究论文介绍了 VistaLLM，一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统，它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征，以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列，VistaLLM 显著提高了性能，并在广泛的任务中实现了领先的结果。

Dec, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

利用视觉语言模型将少样本图像分类和分割作为视觉问答

用视觉引导的分割和评估方法将少样本图像分类和分割问题转化为视觉问答问题，利用视觉语言模型以无需训练的方式进行解决，并通过交互式学习和模块化框架达到最先进的性能。

Mar, 2024