Kosmos-2：将多模态大型语言模型与世界接轨

Jun, 2023

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2: Grounding Multimodal Large Language Models to the World

Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang...

TL;DRKosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Abstract

We introduce Kosmos-2, a multimodal large language model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and →

multimodal large language model perceiving object descriptions grounding text referring expression comprehension embodiment ai

发现论文，激发创造

Kosmos-G: 使用多模态大型语言模型生成上下文中的图像

Kosmos-G 是一个模型，利用 Multimodal Large Language Models（MLLMs）的视觉感知能力来生成来自泛化视觉 - 语言输入的图像，尤其是涉及多张图像的情况。

Oct, 2023

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023

Kosmos-2.5: 一个多模态的才华模型

Kosmos-2.5 是一个多模式文本密集图像的机器阅读模型，能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出，通过 Transformer，任务特定的提示和灵活的文本表示来实现统一的多模式文本功能，可以适应不同提示的文本密集图像任务。

Sep, 2023

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024

在行动中联系多模态大型语言模型

通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Jun, 2024

Groma：针对多模态大语言模型的本地化视觉标记

Groma 是一个多模式大型语言模型，具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联，通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外，Groma 还利用 GPT-4V 和视觉提示技术创建了一个视觉基准数据集，使其在基准测试中表现出优越的对话能力。

Apr, 2024

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND，本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外，该文还提出了一个全面的基准测试 3D-POPE，以系统地评估 3D-LLMs 中的幻觉，并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应，强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是，我们的结果证明了有效的从模拟到真实的转化存在早期信号，表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE，我们的目标是为具身化 AI 社区提供必要的资源和见解，从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。

Jun, 2024

提升文档理解能力的研究：基于 MLLMs 的文本定位探索

在文档理解领域，本文提出了一种文本定位的文档理解模型，命名为 TGDoc，通过增强多模态大型语言模型（MLLMs）的能力来识别图像内文本的空间位置，以提高文本内容解释的准确性，从而提高对文本丰富图像的理解能力。实验证据表明，文本定位方法在多个文本丰富基准测试中取得了最先进的性能，验证了我们方法的有效性。

Nov, 2023