语言远非万能：将感知与语言模型对齐

Feb, 2023

语言远非万能：将感知与语言模型对齐

Language Is Not All You Need: Aligning Perception with Language Models

Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal...

TL;DR本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Abstract

A big convergence of language, multimodal perception, action, and world modeling is a key step toward artificial general intelligence. In this work, we introduce Kosmos-1, a multimodal large language model (MLLM) that can perceive general modalities, learn in context (i.e., few-shot),

multimodal large language model zero-shot learning image captioning cross-modal transfer nonverbal reasoning

发现论文，激发创造

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Jun, 2023

Kosmos-G: 使用多模态大型语言模型生成上下文中的图像

Kosmos-G 是一个模型，利用 Multimodal Large Language Models（MLLMs）的视觉感知能力来生成来自泛化视觉 - 语言输入的图像，尤其是涉及多张图像的情况。

Oct, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

Kosmos-2.5: 一个多模态的才华模型

Kosmos-2.5 是一个多模式文本密集图像的机器阅读模型，能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出，通过 Transformer，任务特定的提示和灵活的文本表示来实现统一的多模式文本功能，可以适应不同提示的文本密集图像任务。

Sep, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

视觉增强零样本图像分类的多模态大语言模型

使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。

May, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

从高效多模型到世界模型：一项调研

多模态大模型（MLMs）是一个重要的研究重点，通过将强大的大型语言模型与多模态学习相结合，对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战，强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术，如多模态思维链（M-COT），多模态指导调优（M-IT）和多模态上下文学习（M-ICL）。此外，我们讨论了多模态模型的基本和具体技术，突出了它们的应用、输入 / 输出模态和设计特征。尽管取得了显著进展，但统一的多模态模型的发展仍然困难。我们讨论了整合 3D 生成和具体模拟能力以增强世界模拟能力，并提出整合外部规则系统以改进推理和决策的方法。最后，我们概述了未来的研究方向，以应对这些挑战并推进该领域。

Jun, 2024