万卷:推动英文和中文大型模型的全面多模态数据集
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型,其中包含了超过 650M 的弱相关和强相关的图片 - 文本对,并经过实验证明,WuDaoMM 是一种高效的 VLPMs 数据集。
Mar, 2022
我们提供了一个高质量的数据集,包含 74 种语言中的超过 70k 个提示 - 回应对,用于训练最先进的开源英语语言模型,以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中,我们的多语言模型优于先前的开源语言模型。此外,我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练(如日语),从而提高性能。这些结果表明,在大量高质量多语言数据的训练下,实现更易用的语言模型变得必要。
May, 2024
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析,选取各种评估指标来评价各类开源聊天机器人的性能表现,并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练,以期提升聊天机器人在中文领域的表现与效率,最后将模型、数据、代码进行公开发布。
Apr, 2023
我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现,传统中文模型仍然落后于其简体中文模型。此外,目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。
Mar, 2024
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。
Dec, 2022
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
本文探究了多模态语言模型的研究,集成了多种数据类型,如图像、文本、语言、音频和其他异构数据。通过合并各种模态,多模态模型能够更全面地理解和处理多样化的数据,本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。
Nov, 2023