WuDaoMM：大规模多模态数据集用于预训练模型

Mar, 2022

WuDaoMM：大规模多模态数据集用于预训练模型

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models

Sha Yuan, Shuai Zhao, Jiahong Leng, Zhao Xue, Hanyu Zhao...

TL;DR本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Abstract

Compared with the domain-specific model, the vision-language pre-training models (vlpms) have shown superior performance on downstream tasks with fast fine-tuning process. For example, ERNIE-ViL, Oscar and UNIMO trained

vision-language pre-training models large-scale multi-modal corpora image-text pairs vlpms wudaomm

发现论文，激发创造

悟空：一个亿级中文跨模态预训练基准

本文发布了一个名为 Wukong 的大规模中文跨模态数据集，旨在用于不同模态的预训练方法基准测试以促进 VLP 研究和社区发展，并通过扩展实验以及不同下游任务的基准测试验证了该数据集的有效性。

Feb, 2022

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

M6：一个中文多模态预训练模型

本研究构建了最大的中文多模态预训练数据集，提出了一个跨模态预训练方法 M6，并在众多应用领域中展示了其优异性能和高质量图像生成能力。

Mar, 2021

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

Zero and R2D2: 一个大规模的中文跨模态基准和视觉语言框架

该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准（ZERO），该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集，并且提出了一个基于预排序和排序机制的 VLP 框架（R2D2），该框架采用目标导向蒸馏和特征导向蒸馏技术，用于实现大规模跨模态学习，并在图像 - 文本检索、文本 - 图像匹配、图像字幕生成、文本到图像生成和零样本图像分类等五个范畴的任务上实现了最先进的表现。

May, 2022

RS5M：一种用于遥感视觉语言的大规模数据集和基础模型

本文提出了一种新的框架，包括领域基础模型（DFM），该模型缩小了通用基础模型（GFM）和特定领域下游任务之间的差距，并通过预训练的 VLM 将筛选后的遥感图像与英文描述进行配对，构成了第一个大规模遥感图像 - 文本匹配数据集。在该数据集上的实验结果表明，使用上述数据集和提出的 DFM 方法的零样本分类和视觉语言检索任务的性能都较好，并且 RS Stable Diffusion 模型的训练也取得了成功的结果。

Jun, 2023

VLMo：混合模态专家的统一视觉语言预训练

本研究提出了统一的视觉 - 语言预训练模型 (VLMo)，通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明，VLMo 在各种视觉 - 语言任务中取得了最先进的结果。

Nov, 2021