V*: 多模态 LLMs 中的核心机制：引导的视觉搜索

Dec, 2023

V*: 多模态 LLMs 中的核心机制：引导的视觉搜索

$\textit{V}^*$: Guided Visual Search as a Core Mechanism in Multimodal LLMs

Penghao Wu, Saining Xie

TL;DR我们引入了一个带有世界知识的低光磁单模型 (LLM) 引导的视觉搜索机制，用于处理高分辨率和视觉拥挤的图像，并结合 MLLM 来增强协同推理、情境理解和对特定视觉元素的精确定位，从而提供了一种新的 MLLM 元架构 (SEAL)。

Abstract

When we look around and perform complex tasks, how we see and selectively process what we see is crucial. However, the lack of this visual search mechanism in current multimodal llms (MLLMs) hinders their ability

visual search multimodal llms high-resolution images world knowledge mllm meta-architecture

发现论文，激发创造

赋能多模态知识存储和共享的视觉增强 LLMs

通过 MKC2 散裝部件集成到 LLMs 中，来存储和分享多模态知识，以增强 LLMs 的推理能力，从而在需要物理或常识知识的上下文中提供竞争性结果。

Nov, 2023

V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合，运用 20 个模型的结合方式，在对 coarse labels 进行两阶段训练的基础上，进行了精细化的自我监督训练。此外，该模型通过使用文本描述训练图像作为监督信号，对图像编码器进行了微调。最终，该模型达到了 0.7623 MAR@10 的成绩，超过了所有竞争对手。

Jul, 2022

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2 是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

告诉我你在哪里：多模态 LLMs 相遇地点识别

使用多模态大语言模型 (MLLMs) 来进行视觉地点识别，结合视觉观测和语言推理，借助视觉特征和 MLLMs 的推理能力，提供有效的地点识别解决方案。

Jun, 2024

VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM)，这是一个新的框架，旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中，VIM 对 MLLMs 提出挑战，对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试，包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列，并通过三个不同的上下文学习设置：零次尝试、一次尝试和对应尝试，探索不同的 MLLMs。我们观察到，开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异，这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。

Nov, 2023

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于 LLM 中的世界知识。2）在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题，我们提出了 MMStar，这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM，以评估它们的多模态能力，并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024