mPLUG-2:跨文本、图像和视频的模块化多模态基础模型
mPLUG 是一个新的视觉语言基础模型,通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题,通过对大规模图像 - 文本对的端到端预训练,具有良好的视觉和语言能力,并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果,并且具有很强的零样本学习能力。
May, 2022
本研究介绍了一种新的培训范式 mPLUG-Owl,该方法通过基于模块化的学习将 Large language models(LLMs)配备了多模态能力。实验表明,通过此方法可以获得多种单模态和多模态能力,包括指导视觉能力、多回合对话和知识推理等,同时出现了一些意想不到且令人兴奋的特性,如多图像相关性和场景文本理解。
Apr, 2023
通过引入模态协作,mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能,并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型,为未来多模态基础模型的发展开辟了先河。
Nov, 2023
为促进 VLP 和 LLM 的发展,作者发布了 Youku-mPLUG 数据集,其中包含经过过滤的 1000 万个视频文本对,用于大规模预训练,并发布了基于该数据集预训练的模型和人类标注的中文基准,最终通过实验验证证明该数据集可以增强理解视频和文本任务。
Jun, 2023
我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl,通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略,增强了 OCR-free 文档理解能力,并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明,我们的模型优于现有的多模型模型,在不同下游任务上具有良好的泛化能力。
Jul, 2023
本文提出了一种新的插入式模块 X-adapter,用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中,以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。
May, 2023
本论文提出了 UniVL:一种统一的视频和语言预训练模型,旨在为多模态理解和生成任务提供强大的视频和文本表示,并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件,最终在五个下游任务上实现了最新的成果。
Feb, 2020
提供了一种简化、任务无关的多模态预训练方法,可以接受视频或文本输入,或两者皆可用于各种端任务。实验结果表明,在多种任务中表现出比以前的方法更强的性能,通常优于任务特定的预训练。
May, 2021
提出一个统一框架的预训练模型,通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合,将不同的预训练范例结合在一起,对于多个不同领域的数据集都具有普适性,并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。
May, 2022
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024