mPLUG-Owl2：多模态大型语言模型的模态协作革新

Nov, 2023

mPLUG-Owl2：多模态大型语言模型的模态协作革新

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu...

TL;DR通过引入模态协作，mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能，并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型，为未来多模态基础模型的发展开辟了先河。

Abstract

multi-modal large language models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model,

multi-modal large language models modality collaboration mplug-owl2 text tasks multi-modal tasks

发现论文，激发创造

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

mPLUG-2：跨文本、图像和视频的模块化多模态基础模型

该论文提出了一种新的多模态预训练统一范式 mPLUG-2，该范式具有模块化设计和通用模块的共享，可以处理多种任务，包括文本，图像和视频的多模态理解和生成，达到了最先进的结果。

Feb, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

MammothModa: 多模大语言模型

我们介绍了 MammothModa，这是另一个多模态大型语言模型（MLLM），旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解：（i）在保持复杂语言理解的同时融入视觉能力：除了视觉编码器外，我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。（ii）扩展上下文窗口以获得高分辨率和长持续时间的视觉特征：我们探索了视觉合并模块，以有效地减少高分辨率图像的标记数量，并引入了帧位置 ID 以避免位置插值。（iii）高质量的双语数据集：我们精心策划和筛选了一个高质量的双模态双语数据集，以减少视觉幻觉。通过上述方法，我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型，例如 LLaVA 系列模型，而没有花里胡哨的东西。

Jun, 2024

mPLUG-PaperOwl: 多模态大型语言模型的科学图解析

通过强化多模态图表分析能力，我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’，通过与先进的多模态语言模型的全面实验，证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.

Nov, 2023

Octavius: 通过 MoE 减少 MLLMs 的任务干扰

通过介绍新颖且可扩展的框架 LaRA-MoE，本研究通过大型语言模型在多模态学习方面的综合研究和实验，展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性（提升约 20%），以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。

Nov, 2023