Groma：针对多模态大语言模型的本地化视觉标记

Apr, 2024

Groma：针对多模态大语言模型的本地化视觉标记

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi

TL;DRGroma 是一个多模式大型语言模型，具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联，通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外，Groma 还利用 GPT-4V 和视觉提示技术创建了一个视觉基准数据集，使其在基准测试中表现出优越的对话能力。

Abstract

We introduce groma, a multimodal large language model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic ima

groma multimodal large language model visual perception region-level tasks grounded chat

发现论文，激发创造

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Jun, 2023

Kosmos-G: 使用多模态大型语言模型生成上下文中的图像

Kosmos-G 是一个模型，利用 Multimodal Large Language Models（MLLMs）的视觉感知能力来生成来自泛化视觉 - 语言输入的图像，尤其是涉及多张图像的情况。

Oct, 2023

RegionGPT：面向区域理解的视觉语言模型

区域语言模型 (RegionGPT) 是一种新的框架，通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解，提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。

Mar, 2024

BuboGPT：多模态 LLM 中的视觉定位

BuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Jul, 2023

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

LEGO：语言增强多模态基准模型

我们提出了一种名为 LEGO 的语言增强多模型定位模型，相较于现有的多模型模型，它具备较好识别和定位图像特定区域以及视频特定时刻的能力，通过多样化的数据集构建流程进行模型训练。

Jan, 2024

LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。

May, 2024

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023