OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

Jun, 2024

OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye...

TL;DR介绍了 OmniCorpus 数据集，一个 100 亿级别的图文交错数据集，与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯，通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性，为未来的多模态模型研究提供了坚实的数据基础。

Abstract

image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids →

image-text interleaved data multimodal in-context learning large language models omnicorpus dataset multimodal model research

发现论文，激发创造

Multimodal C4: 亿级图文混合语料库

Multimodal C4 is a publicly available dataset that supports in-context vision and language models, including linear assignment algorithm, for complex learning between images and texts.

Apr, 2023

OBELISC: 一个开放的大规模的筛选过的交错图像文本数据集

本文介绍了一个大型多模式模型数据集（OBELISC 数据集），由 141 亿个网页、353 亿个相关图像和 1150 亿个文本标记组成，在此数据集上训练出的模型在各种多模态测试中获得了有竞争力的性能表现。

Jun, 2023

CoMM：一种用于多模态理解与生成的连贯交织的图像文本数据集

CoMM 数据集提供了同时生成图像和文本的高质量多模态内容，以增强多模态大语言模型的一致性和准确性，并在多个下游任务中显示出显著的上下文学习能力。

Jun, 2024

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

MINT-1T：将开源多模态数据放大 10 倍：一万亿令牌的多模态数据集

介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T，其中包括十亿个文本标记和三十亿个图像，并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。

Jun, 2024

OmniDataComposer：多模态数据融合与无限数据生成的统一数据结构

OmniDataComposer 是一种创新的方法，用于多模态数据融合和无限数据生成，其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构，促进模态之间的互相增强和跨模态数据校正，将视频输入转化为详尽的顺序文档，从而更容易为大型语言模型处理，为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。

Aug, 2023

跨媒体 - 3600：一款大规模多语言多模态评估数据集

本文提出了 Crossmodal-3600 数据集，其中包含 3600 张图片，涵盖了 36 种语言中所使用的地区，并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择，并在使用 XM3600 作为自动度量的黄金参考时，展示出与人工评估更高的相关性结果。

May, 2022

探索全模态大规模预训练的极限

我们提出了建立全模态智能的方法，能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文（MiCo），我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力，并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务（包括检索、问答、字幕生成）和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。

Jun, 2024

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022