WuDaoMM:大规模多模态数据集用于预训练模型
本文发布了一个名为 Wukong 的大规模中文跨模态数据集,旨在用于不同模态的预训练方法基准测试以促进 VLP 研究和社区发展,并通过扩展实验以及不同下游任务的基准测试验证了该数据集的有效性。
Feb, 2022
本文介绍了 “Wan Juan” 数据集,一个大规模多模态数据集,包括中英文数据、文本、图像文本和视频模态,总容量超过 2TB。该数据集被用于训练 InternLM 模型,在与类似规模的模型相比的多维评估中展现出显著优势。
Aug, 2023
本文介绍了作者团队领导的 “文兰” 项目的主要研究方向,即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法,隐式地建模跨模态关联,从而更成功地实现大规模多模态预训练。同时,他们还建立了一个大规模的中文多源图像文本语料库,称为 RUC-CAS-WenLan,用于 BriVL 模型的预训练。实验结果表明,预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。
Mar, 2021
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准(ZERO),该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集,并且提出了一个基于预排序和排序机制的 VLP 框架(R2D2),该框架采用目标导向蒸馏和特征导向蒸馏技术,用于实现大规模跨模态学习,并在图像 - 文本检索、文本 - 图像匹配、图像字幕生成、文本到图像生成和零样本图像分类等五个范畴的任务上实现了最先进的表现。
May, 2022
本文提出了一种新的框架,包括领域基础模型(DFM),该模型缩小了通用基础模型(GFM)和特定领域下游任务之间的差距,并通过预训练的 VLM 将筛选后的遥感图像与英文描述进行配对,构成了第一个大规模遥感图像 - 文本匹配数据集。在该数据集上的实验结果表明,使用上述数据集和提出的 DFM 方法的零样本分类和视觉语言检索任务的性能都较好,并且 RS Stable Diffusion 模型的训练也取得了成功的结果。
Jun, 2023
本研究提出了统一的视觉 - 语言预训练模型 (VLMo),通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明,VLMo 在各种视觉 - 语言任务中取得了最先进的结果。
Nov, 2021