通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

May, 2022

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan...

TL;DRmPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

Abstract

Large-scale pretrained foundation models have been an emerging paradigm for building artificial intelligence (AI) systems, which can be quickly adapted to a wide range of downstream tasks. This paper presents mPLUG, a new vision-language foundation model for both cross-modal understand

pretrained models vision-language cross-modal alignment image-text pairs generative objectives

发现论文，激发创造

mPLUG-2：跨文本、图像和视频的模块化多模态基础模型

该论文提出了一种新的多模态预训练统一范式 mPLUG-2，该范式具有模块化设计和通用模块的共享，可以处理多种任务，包括文本，图像和视频的多模态理解和生成，达到了最先进的结果。

Feb, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

本文提出了一种新的插入式模块 X-adapter，用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中，以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。

May, 2023

mPLUG-Owl2：多模态大型语言模型的模态协作革新

通过引入模态协作，mPLUG-Owl2 多模态大型语言模型在文本和多模态任务中实现了卓越的性能，并且是首个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型，为未来多模态基础模型的发展开辟了先河。

Nov, 2023

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

K-PLUG：用于电子商务自然语言理解和生成的知识注入预训练语言模型

本研究提出了一种基于 encoder-decoder transformer 的知识注入预训练语言模型 K-PLUG，利用五种知识感知的自我监督预训练目标，包括电子商务领域特定知识库、产品实体的方面、产品实体的类别和产品实体的独特卖点，有效地为语言理解和生成任务学习了各种领域特定知识，并在包括产品知识库完成、摘要产品总结和多次对话等领域特定 NLP 任务中达到了新的最佳性能。

Apr, 2021

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

视觉与语言跨语言迁移的元学习

本文提出的元学习微调框架可提高目前状态下的预训练视觉语言模型在跨语言多模态场景下的适应性和性能表现，实验证明该方法在跨语言零样本和少样本多模态交叉迁移的场景下均可提高模型性能。

May, 2023

Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集，用于预训练和基准测试

为促进 VLP 和 LLM 的发展，作者发布了 Youku-mPLUG 数据集，其中包含经过过滤的 1000 万个视频文本对，用于大规模预训练，并发布了基于该数据集预训练的模型和人类标注的中文基准，最终通过实验验证证明该数据集可以增强理解视频和文本任务。

Jun, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023