多模态指导的细粒度视觉感知语言模型优化

Mar, 2024

多模态指导的细粒度视觉感知语言模型优化

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He...

TL;DR提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Abstract

multimodal large language model (MLLMs) leverages Large Language Models as a cognitive framework for diverse visual-language tasks. Recent efforts have been made to equip MLLMs with visual perceiving and

multimodal large language model visual perceiving grounding capabilities pixel-wise object perceptions natural language descriptions

发现论文，激发创造

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024

F-LMM: 冻结大规模多模态模型的基础

通过冻结已训练好的 Large Multimodal Models（LMMs）并结合人机对话，我们提出了一种简单且有效的设计 F-LMM，可以在完全保留 LMMs 的通话能力的同时，在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。

Jun, 2024

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

PixelLM：使用大型多模型进行像素推理

通过引入 PixelLM，一种高效且有效的大规模多模态模型，该论文解决了对涉及多个开放世界目标的图像推理任务生成像素级掩码的挑战，并在多个基准测试中表现出色，证实了各个组成部分的有效性。

Dec, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023