mPLUG-2：跨文本、图像和视频的模块化多模态基础模型

Feb, 2023

mPLUG-2：跨文本、图像和视频的模块化多模态基础模型

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye...

TL;DR该论文提出了一种新的多模态预训练统一范式 mPLUG-2，该范式具有模块化设计和通用模块的共享，可以处理多种任务，包括文本，图像和视频的多模态理解和生成，达到了最先进的结果。

Abstract

Recent years have witnessed a big convergence of language, vision, and multi-modal pretraining. In this work, we present mPLUG-2, a new unified paradigm with modularized design for →

multi-modal pretraining modularized design modality collaboration modality entanglement empirical study

发现论文，激发创造

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

mPLUG-Owl2：多模态大型语言模型的模态协作革新

通过引入模态协作，mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能，并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型，为未来多模态基础模型的发展开辟了先河。

Nov, 2023

Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集，用于预训练和基准测试

为促进 VLP 和 LLM 的发展，作者发布了 Youku-mPLUG 数据集，其中包含经过过滤的 1000 万个视频文本对，用于大规模预训练，并发布了基于该数据集预训练的模型和人类标注的中文基准，最终通过实验验证证明该数据集可以增强理解视频和文本任务。

Jun, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

本文提出了一种新的插入式模块 X-adapter，用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中，以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。

May, 2023

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

UL2: 统一语言学习范式

提出一个统一框架的预训练模型，通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合，将不同的预训练范例结合在一起，对于多个不同领域的数据集都具有普适性，并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。

May, 2022

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024