mPLUG-Owl2:多模态大型语言模型的模态协作革新
本研究介绍了一种新的培训范式 mPLUG-Owl,该方法通过基于模块化的学习将 Large language models(LLMs)配备了多模态能力。实验表明,通过此方法可以获得多种单模态和多模态能力,包括指导视觉能力、多回合对话和知识推理等,同时出现了一些意想不到且令人兴奋的特性,如多图像相关性和场景文本理解。
Apr, 2023
该论文提出了一种新的多模态预训练统一范式 mPLUG-2,该范式具有模块化设计和通用模块的共享,可以处理多种任务,包括文本,图像和视频的多模态理解和生成,达到了最先进的结果。
Feb, 2023
我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl,通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略,增强了 OCR-free 文档理解能力,并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明,我们的模型优于现有的多模型模型,在不同下游任务上具有良好的泛化能力。
Jul, 2023
mPLUG 是一个新的视觉语言基础模型,通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题,通过对大规模图像 - 文本对的端到端预训练,具有良好的视觉和语言能力,并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果,并且具有很强的零样本学习能力。
May, 2022
引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。
Jan, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
我们介绍了 MammothModa,这是另一个多模态大型语言模型(MLLM),旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解:(i)在保持复杂语言理解的同时融入视觉能力:除了视觉编码器外,我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。(ii)扩展上下文窗口以获得高分辨率和长持续时间的视觉特征:我们探索了视觉合并模块,以有效地减少高分辨率图像的标记数量,并引入了帧位置 ID 以避免位置插值。(iii)高质量的双语数据集:我们精心策划和筛选了一个高质量的双模态双语数据集,以减少视觉幻觉。通过上述方法,我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型,例如 LLaVA 系列模型,而没有花里胡哨的东西。
Jun, 2024
通过强化多模态图表分析能力,我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’,通过与先进的多模态语言模型的全面实验,证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.
Nov, 2023
通过介绍新颖且可扩展的框架 LaRA-MoE,本研究通过大型语言模型在多模态学习方面的综合研究和实验,展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性(提升约 20%),以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。
Nov, 2023