MINT-1T：将开源多模态数据放大 10 倍：一万亿令牌的多模态数据集

Jun, 2024

MINT-1T：将开源多模态数据放大 10 倍：一万亿令牌的多模态数据集

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee...

TL;DR介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T，其中包括十亿个文本标记和三十亿个图像，并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。

Abstract

multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (→

multimodal interleaved datasets large multimodal models mint-1t open-source datasets lmms

发现论文，激发创造

OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

介绍了 OmniCorpus 数据集，一个 100 亿级别的图文交错数据集，与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯，通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性，为未来的多模态模型研究提供了坚实的数据基础。

Jun, 2024

M$^3$IT: 多模态多语言指令调整的大规模数据集

本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集，其中包含了 40 个经过精心筛选的数据集，共 2.4 百万个实例和 400 个任务指令，可用于优化视觉语言模型的人类指令对齐，同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。

Jun, 2023

MINT：用于 Foley 音频内容规划和生成的多模态图像和叙述文本配音数据集

此研究论文介绍了 AI 生成内容中的 foley 音频在多媒体内容中提升沉浸式体验的重要性和挑战，探讨了当前文本到音频技术在视频配音应用中的局限，并提出了多模态音频配音数据集（MINT）和一种基于大型语言模型的含有复合模态提示的内容规划、生成和对齐框架，通过增强学习方法优化训练过程，提高配音质量和生成音频的真实感，为多模态配音领域提供了强大的解决方案。

Jun, 2024

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Mar, 2021

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

M3T: 多模文档级机器翻译的新基准数据集

本文介绍了 M3T，这是一个新颖的基准数据集，旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现，并解决了现实世界应用中丰富文本布局所带来的挑战。

Jun, 2024

SemEval 2023 任务 9：多语言推文亲密度分析

提出了一个名为 MINT 的针对 13,372 条推文的多语言亲密性分析数据集，并在英语、法语、西班牙语、意大利语、葡萄牙语、韩语、荷兰语、中文、印地语和阿拉伯语等 10 种语言上进行了基准测试，并发布了该数据集。同时，与此数据集相关的语义分析比赛任务为 SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis。

Oct, 2022

PIN：一种适用于配对和交错多模态文档的知识密集数据集

最近，对大型多模态模型（LMMs）的最新进展借鉴了丰富的多模态数据集，以增强复杂的知识驱动任务的能力。然而，感知和推理错误的持续挑战限制了它们的效力，尤其是在解释复杂视觉数据和推断多模态关系方面。针对这些问题，我们引入了一种新颖的数据集格式，PIN（配对和交错多模态文档），旨在显著提高多模态训练的深度和广度。PIN 格式基于三个基本原则：知识密度、可伸缩性和对不同训练模态的支持。这种创新的格式将 Markdown 文件和全面的图像结合起来，用密集的知识结构和灵活的训练策略丰富训练数据。我们提供了 PIN-14M，一个由来自各种中英文来源的 1400 万个样本构成的开源数据集，旨在包含复杂的网络和科学内容。这个数据集精心构建，以确保数据质量和道德完整性，旨在促进先进的训练策略，并提高模型在常见多模态训练陷阱中的鲁棒性。我们的初步结果成为本技术报告的基础，表明 PIN 格式在提高 LMM 性能方面具有重要潜力，未来还计划扩展并详细评估其对模型能力的影响。

Jun, 2024

OpenVid-1M：一个用于文本到视频生成的大规模高质量数据集

T2V 生成在最近受到了很大的关注，然而仍面临两个重要的挑战：缺乏精确的开源高质量数据集，以及未充分利用文本信息。为了解决这些问题，我们介绍了 OpenVid-1M，一个精确的高质量数据集，以及一种能够从视觉标记和文本标记中提取结构信息和语义信息的新型多模态视频扩散变换器（MVDiT）的提议。广泛的实验和消融研究验证了 OpenVid-1M 优于以前数据集的优越性和我们的 MVDiT 的有效性。

Jul, 2024

MIntRec：一个新的多模态意图识别数据集

这篇论文介绍了一个新的数据集（MIntRec）来解决现有意图识别方法在实现多模态信息利用方面的限制。使用该数据集，通过提取每种模态的特征并采用三种强大的多模态融合方法，可以显著提高意图识别的效果。

Sep, 2022