GLaMM: 像素 grounding 大规模多模态模型
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
Jun, 2024
Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型,在视频中能够根据用户指令对对象进行时空定位,并在生成和问答任务中取得优异结果。
Nov, 2023
提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果,包括多模态参考分割和区域级参考表达生成。
Mar, 2024
我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割,采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码,使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明,我们的方法卓越于三个任务,包括全景叙事连接、指称表达分割和全景分割。
Feb, 2024
通过使用大型语言模型作为视觉定位模型的辅助工具,LLM-Optic 方法克服了复杂文本查询的限制,实现了可以通过任意语言输入来检测任意对象的视觉定位能力,无需额外训练或微调。
May, 2024
最近在大型多模态模型(LMMs)的重要突破中,人们越来越意识到视觉聊天的基础能力。然而,尽管近期的努力使 LMMs 能够支持基础能力,但它们的聊天表现通常是独立的,并且在被要求进行基础时其聊天性能显著下降。该问题的根源在于缺乏一个用于基础视觉聊天(GVC)的数据集。为了解决这个问题,我们创造了能够结合基础和聊天能力的 GVC 数据。为了更好地评估 GVC 的能力,我们引入了一个名为 Grounding-Bench 的基准。此外,我们提出了一种模型设计,可以通过将分割模型与语言模型相连接来支持 GVC 和各种类型的视觉提示。实验结果表明,我们的模型在 Grounding-Bench 上优于其他 LMMs。此外,我们的模型在经典的基础基准测试中,如 RefCOCO/+/g 和 Flickr30K 实体中,也取得了有竞争力的性能。我们的代码将在此 https URL 发布。
Dec, 2023
插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。
Mar, 2024
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024