万卷：推动英文和中文大型模型的全面多模态数据集

Aug, 2023

万卷：推动英文和中文大型模型的全面多模态数据集

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang...

TL;DR本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Abstract

The rise in popularity of chatgpt and gpt-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive →

chatgpt gpt-4 large language models multimodal large language models wan juan

发现论文，激发创造

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

多语言聊天数据集：Tagengo

我们提供了一个高质量的数据集，包含 74 种语言中的超过 70k 个提示 - 回应对，用于训练最先进的开源英语语言模型，以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中，我们的多语言模型优于先前的开源语言模型。此外，我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练（如日语），从而提高性能。这些结果表明，在大量高质量多语言数据的训练下，实现更易用的语言模型变得必要。

May, 2024

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023