OmniCorpus:一个包含百亿级图像和文本交叉编码的统一多模态语料库
Multimodal C4 is a publicly available dataset that supports in-context vision and language models, including linear assignment algorithm, for complex learning between images and texts.
Apr, 2023
本文介绍了一个大型多模式模型数据集(OBELISC 数据集),由 141 亿个网页、353 亿个相关图像和 1150 亿个文本标记组成,在此数据集上训练出的模型在各种多模态测试中获得了有竞争力的性能表现。
Jun, 2023
CoMM 数据集提供了同时生成图像和文本的高质量多模态内容,以增强多模态大语言模型的一致性和准确性,并在多个下游任务中显示出显著的上下文学习能力。
Jun, 2024
Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.
Jun, 2024
介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T,其中包括十亿个文本标记和三十亿个图像,并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。
Jun, 2024
OmniDataComposer 是一种创新的方法,用于多模态数据融合和无限数据生成,其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构,促进模态之间的互相增强和跨模态数据校正,将视频输入转化为详尽的顺序文档,从而更容易为大型语言模型处理,为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。
Aug, 2023
本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金参考时,展示出与人工评估更高的相关性结果。
May, 2022
我们提出了建立全模态智能的方法,能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文(MiCo),我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力,并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务(包括检索、问答、字幕生成)和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。
Jun, 2024
LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集,许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调,这个数据集的开放也将推动更多基于大规模多模型的研究。
Oct, 2022
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。
Dec, 2022