V*: 多模态 LLMs 中的核心机制:引导的视觉搜索
通过 MKC2 散裝部件集成到 LLMs 中,来存储和分享多模态知识,以增强 LLMs 的推理能力,从而在需要物理或常识知识的上下文中提供竞争性结果。
Nov, 2023
本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。此外,该模型通过使用文本描述训练图像作为监督信号,对图像编码器进行了微调。最终,该模型达到了 0.7623 MAR@10 的成绩,超过了所有竞争对手。
Jul, 2022
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024
VisionLLM v2 是一种端到端的多模态大型模型,它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器,以实现灵活的任务信息传输和梯度反馈,并在多任务场景中解决训练冲突,并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化,达到与特定任务模型相当的性能。
Jun, 2024
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
利用大型视觉 - 语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
Feb, 2024
使用多模态大语言模型 (MLLMs) 来进行视觉地点识别,结合视觉观测和语言推理,借助视觉特征和 MLLMs 的推理能力,提供有效的地点识别解决方案。
Jun, 2024
我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM),这是一个新的框架,旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中,VIM 对 MLLMs 提出挑战,对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试,包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列,并通过三个不同的上下文学习设置:零次尝试、一次尝试和对应尝试,探索不同的 MLLMs。我们观察到,开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异,这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。
Nov, 2023
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生成机制,提供更准确的多模态解释,在各种多模态理解和视觉感知任务中展现卓越性能。
Jun, 2024