悟空：一个亿级中文跨模态预训练基准

Feb, 2022

悟空：一个亿级中文跨模态预训练基准

Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu...

TL;DR本文发布了一个名为 Wukong 的大规模中文跨模态数据集，旨在用于不同模态的预训练方法基准测试以促进 VLP 研究和社区发展，并通过扩展实验以及不同下游任务的基准测试验证了该数据集的有效性。

Abstract

vision-language pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-s

vision-language pre-training chinese cross-modal dataset multilingual applications pre-training methods downstream tasks

发现论文，激发创造

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022

Zero and R2D2: 一个大规模的中文跨模态基准和视觉语言框架

该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准（ZERO），该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集，并且提出了一个基于预排序和排序机制的 VLP 框架（R2D2），该框架采用目标导向蒸馏和特征导向蒸馏技术，用于实现大规模跨模态学习，并在图像 - 文本检索、文本 - 图像匹配、图像字幕生成、文本到图像生成和零样本图像分类等五个范畴的任务上实现了最先进的表现。

May, 2022

Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集，用于预训练和基准测试

为促进 VLP 和 LLM 的发展，作者发布了 Youku-mPLUG 数据集，其中包含经过过滤的 1000 万个视频文本对，用于大规模预训练，并发布了基于该数据集预训练的模型和人类标注的中文基准，最终通过实验验证证明该数据集可以增强理解视频和文本任务。

Jun, 2023

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

Qwen-VL: 具备多功能能力的前沿大规模视觉语言模型

介绍了 Qwen-VL 系列，这是一组大规模视觉语言模型，旨在感知和理解文本和图像，以提高多模态人工智能的性能。

Aug, 2023

CVLUE：一个新的面向中文视觉语言理解评估的基准数据集

通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集，揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距，并发现在中国文化方面缺乏知识。此外，通过在中文相关视觉 - 语言数据集上进行微调，有效提升了视觉 - 语言模型对中国文化的理解。

Jul, 2024

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

GAOKAO-MM: 中国多模态模型评估的人类水平基准

提出了 GAOKAO-MM，这是一个基于中国高考的多模态基准，评估了 10 个大型视觉语言模型 (LVLMs)，发现它们的准确率都低于 50％，排名前三的是 GPT-4-Vison（48.1％），Qwen-VL-Plus（41.2％）和 Gemini-Pro-Vision（35.1％）。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离，并为多语言 LVLMs 的发展提供了启示。

Feb, 2024

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023