mPLUG-Owl：模块化赋予大型语言模型多模态能力

Apr, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan...

TL;DR本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Abstract

large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, w

large language models multi-modal generation mplug-owl visual knowledge module multi-image correlation

发现论文，激发创造

mPLUG-Owl2：多模态大型语言模型的模态协作革新

通过引入模态协作，mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能，并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型，为未来多模态基础模型的发展开辟了先河。

Nov, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

mPLUG-2：跨文本、图像和视频的模块化多模态基础模型

该论文提出了一种新的多模态预训练统一范式 mPLUG-2，该范式具有模块化设计和通用模块的共享，可以处理多种任务，包括文本，图像和视频的多模态理解和生成，达到了最先进的结果。

Feb, 2023

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

mPLUG-PaperOwl: 多模态大型语言模型的科学图解析

通过强化多模态图表分析能力，我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’，通过与先进的多模态语言模型的全面实验，证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.

Nov, 2023

Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

本研究提出 Macaw-LLM，一种新型的多模式学习模型，可以无缝整合视觉、音频和文本信息，其中主要包括三个模块：一种用于编码多模式数据的模态模块，一种利用预训练 LLM 的认知模块，和一种用于协调多样化表示形式的对齐模块，并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。

Jun, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

MammothModa: 多模大语言模型

我们介绍了 MammothModa，这是另一个多模态大型语言模型（MLLM），旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解：（i）在保持复杂语言理解的同时融入视觉能力：除了视觉编码器外，我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。（ii）扩展上下文窗口以获得高分辨率和长持续时间的视觉特征：我们探索了视觉合并模块，以有效地减少高分辨率图像的标记数量，并引入了帧位置 ID 以避免位置插值。（iii）高质量的双语数据集：我们精心策划和筛选了一个高质量的双模态双语数据集，以减少视觉幻觉。通过上述方法，我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型，例如 LLaVA 系列模型，而没有花里胡哨的东西。

Jun, 2024

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023