See, Say, and Segment: 教导 LMMs 克服错误先决条件

Dec, 2023

See, Say, and Segment: 教导 LMMs 克服错误先决条件

See, Say, and Segment: Teaching LMMs to Overcome False Premises

Tsung-Han Wu, Giscard Biamby, David Chan, Lisa Dunlap, Ritwik Gupta...

TL;DR通过级联和联合训练方法，我们提出了一种大型多模态模型（LMMs）的解决方案，可以在图像中检测物体是否存在，并通过提供自然语言反馈和修正查询中的语义错误来改善物体分割的结果。此外，我们还引入了一个新的虚假前提修正基准数据集，通过在虚假前提条件下相对于基准模型提高超过 31% 的相对交并比（cIOU）值来检测虚假前提。

Abstract

Current open-source large multimodal models (LMMs) excel at tasks such as open-vocabulary language grounding and segmentation but can suffer under false premises when queries imply the existence of something that is not actually present in the image. We observe that existing methods th

large multimodal models catastrophic forgetting object segmentation false premise correction natural language feedback

发现论文，激发创造

F-LMM: 冻结大规模多模态模型的基础

通过冻结已训练好的 Large Multimodal Models（LMMs）并结合人机对话，我们提出了一种简单且有效的设计 F-LMM，可以在完全保留 LMMs 的通话能力的同时，在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。

Jun, 2024

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

多模型大语言模型中的灾难性遗忘研究

通过将多模态大型语言模型（MLLM）视为图像分类器，并引入 EMT（用于评估 MLLM 中的灾难性遗忘）来评估现有的 MLLM 并检测到 fine-tuning 在图像分类任务上性能下降的问题。研究发现，几乎所有评估的 MLLM 在标准图像分类任务上都无法保持与视觉编码器相同的性能水平，并且尽管初期 fine-tuning 可以提高在其他图像数据集上的性能，但随着 fine-tuning 的进行，MLLM 开始产生幻觉，并导致了显著的泛化能力损失。因此，MLLM 在标准图像分类任务上的性能仍有待提高。

Sep, 2023

基于大语言模型的小样本分类与分割代理

利用大型语言模型作为任务规划者，视觉模型作为工具，通过观察支持图像和使用语境学习指导大型语言模型，利用其总结和推理能力对查询图像进行分类和分割，从而在无需训练的情况下解决了少样本图像分类和分割问题，并在 Pascal-5i 数据集上取得了最先进的性能。

Nov, 2023

基于 LLM 监督的零训练语义分割

该论文介绍了一种利用大型语言模型（LLM）进行文本监督语义分割的新方法，该方法通过生成更准确的类别表示来提供多样化的分割结果，并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验，我们的方法比传统的文本监督语义分割方法表现出更好的性能。

Mar, 2024

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

基于 LMM 的知识在图像分类任务中的利用

使用 Large Multimodal Models 中的 MiniGPT-4 模型，结合图像编码器和文本编码器提取语义描述，以提高图像分类任务的性能。

Jun, 2024