M6：一个中文多模态预训练模型

KDDMar, 2021

M6: A Chinese Multimodal Pretrainer

Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding...

TL;DR本研究构建了最大的中文多模态预训练数据集，提出了一个跨模态预训练方法 M6，并在众多应用领域中展示了其优异性能和高质量图像生成能力。

Abstract

In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining m

multimodal pretraining chinese dataset m6 method cross-modal pretraining text-guided image generation

发现论文，激发创造

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022

MT6: 多语言预训练文本转文本 Transformer 及其翻译数据对

该研究旨在提高跨语言文本之间转换的效果。通过使用三种跨语言文本 - to-text 预训练任务和部分非自回归目标，将 Multilingual T5 的结果进一步提高到 mT6。经过实验验证，该方法提高了基于八个多语言基准数据集的跨语言转移能力。

Apr, 2021

M5Product：电商多模态预训练的自协调对比学习

该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架，实现了不同模态特征的融合和学习，并在四个下游任务中展示了其优越性，该方法具有重要的数据集规模和多样性。

Sep, 2021

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

我们介绍了一个包含 60 亿个图像 - 文本配对的双语（中英文）数据集 BM-6B，通过提出一种新颖的分组聚合方法来处理此规模的数据集，大大减少了通信开销和 GPU 内存需求，从而提高了训练速度，我们预训练了一系列双语图像 - 文本基础模型，并在 BM-6B 上取得了提升视觉和文本理解能力的成果，这些模型在多模态检索和分类任务方面树立了新的基准，并且我们的最大模型在零样本分类设置下，在 ImageNet 上的 top-1 准确率分别超过了以前报道的 SoTA 方法 2.2% 和 21.1%。

Jan, 2024

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

4M-21：面向数十项任务和模态的任意到任意视觉模型

通过对多个多媒体形式进行联合训练和扩展，我们成功地提升了多模态模型的能力，并展示了训练一个模型以解决更多任务 / 多模态性的可能性，而不损失性能，从而实现更精细化和可控的多模态生成能力。

Jun, 2024

探索全模态大规模预训练的极限

我们提出了建立全模态智能的方法，能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文（MiCo），我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力，并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务（包括检索、问答、字幕生成）和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。

Jun, 2024

InterBERT：多模态预训练中的视觉 - 语言交互

该论文提出了一种基于多模态预训练的新型模型 InterBERT，通过预训练的方式实现了多个任务，包括掩码片段建模、掩码区域建模和图像与文本匹配，并在视觉和语言下游任务上进行了 fine-tuning，最终实现了基于主题的推荐和基于文本的图像检索。

Mar, 2020