WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

Mar, 2021

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork

TL;DR本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Abstract

The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. multimodal modeling techniques

multimodal modeling pre-training wit dataset image-text retrieval multilingual learning

发现论文，激发创造

WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

通过保留完整的图像、文本和结构数据，Wikipedia Webpage 2M（WikiWeb2M）套件旨在研究多模式网页理解，如页面描述生成、部分摘要和上下文图像说明。

May, 2023

多模态码本在文本图像翻译中的应用

本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

May, 2023

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

M$^3$IT: 多模态多语言指令调整的大规模数据集

本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集，其中包含了 40 个经过精心筛选的数据集，共 2.4 百万个实例和 400 个任务指令，可用于优化视觉语言模型的人类指令对齐，同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。

Jun, 2023

SVIT：扩展视觉指导调整

通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集，对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。

Jul, 2023

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022

多语言维基百科研究的考虑因素

本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Apr, 2022

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022