mPLUG-PaperOwl: 多模态大型语言模型的科学图解析
本研究介绍了一种新的培训范式 mPLUG-Owl,该方法通过基于模块化的学习将 Large language models(LLMs)配备了多模态能力。实验表明,通过此方法可以获得多种单模态和多模态能力,包括指导视觉能力、多回合对话和知识推理等,同时出现了一些意想不到且令人兴奋的特性,如多图像相关性和场景文本理解。
Apr, 2023
我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl,通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略,增强了 OCR-free 文档理解能力,并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明,我们的模型优于现有的多模型模型,在不同下游任务上具有良好的泛化能力。
Jul, 2023
通过引入模态协作,mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能,并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型,为未来多模态基础模型的发展开辟了先河。
Nov, 2023
我们引入了一个开源的多模态自动学术论文解读系统(MMAPIS),通过三个步骤,包括 LLMs 来增强其功能:首先,我们利用混合模态的预处理和对齐模块来提取纯文本、表格或图像;然后根据所属章节的名称对这些信息进行对齐,确保具有相同章节名称的数据被归类到同一节下;接下来,我们采用分层的话语感知摘要方法,利用提取的章节名称将文章分割成较短的文本段落,通过具体提示使用 LLMs 进行节内和节间的摘要;最后,我们设计了四种类型的多样化用户界面,包括论文推荐、多模态问答、音频广播和解释博客,广泛适用于各种场景。我们的定性和定量评估突出了系统的优越性,尤其在科学摘要中,它胜过仅依赖 GPT-4 的解决方案。
Jan, 2024
通过创建高质量的指令调整数据集,并使用这个数据集训练多模态大型语言模型 ChartLlama,本研究提出的数据生成方法可以有效地提高图表理解能力,并在 ChartQA、图表转文本和图表提取等评估中明显超越以往的方法,证实了其巨大潜力。
Nov, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
Uni-SMART 是一种创新模型,旨在深入理解多模式科学文献,通过量化评估在多个领域展示了超越文本焦点的大型语言模型的卓越性能,同时探索了专利侵权检测和图表的细致分析等实际应用,凸显了 Uni-SMART 的适应性和革新性。
Mar, 2024
研究论文通过设计 DocLLM 模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前未见过的数据集具有较好的泛化能力。
Dec, 2023