Dec, 2023

V*: 多模态 LLMs 中的核心机制:引导的视觉搜索

TL;DR我们引入了一个带有世界知识的低光磁单模型 (LLM) 引导的视觉搜索机制,用于处理高分辨率和视觉拥挤的图像,并结合 MLLM 来增强协同推理、情境理解和对特定视觉元素的精确定位,从而提供了一种新的 MLLM 元架构 (SEAL)。