BuboGPT：多模态 LLM 中的视觉定位

Jul, 2023

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng...

TL;DRBuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Abstract

llms have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in llms, such as MiniGPT-4, LLaVA, and X-LLM,

llms multi-modal bubogpt visual grounding text-image-audio understanding

发现论文，激发创造

通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展

通过将 BERT 模型的上下文表示与视觉信息进行融合，GroundedBERT 方法在语言任务中明显优于基准模型，解决了语言模型在视觉语境处理中的限制问题。

Dec, 2023

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

MultiModal-GPT: 一个视觉语言模型，用于人类对话

该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。

May, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

LEGO：语言增强多模态基准模型

我们提出了一种名为 LEGO 的语言增强多模型定位模型，相较于现有的多模型模型，它具备较好识别和定位图像特定区域以及视频特定时刻的能力，通过多样化的数据集构建流程进行模型训练。

Jan, 2024

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023

多模式大型语言模型中的即插即用推理基础

插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异，特别是在高分辨率图像中的文本和对象细节捕捉方面，与 GPT-4V 的性能相当，为模型扩展之外的有前景的替代方案。

Mar, 2024

LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。

May, 2024

HiVG: 视觉引导的分层多模态细粒度调控

通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。

Apr, 2024

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023