mOSCAR：一个大规模的多语言和多模态的文档级语料库

Jun, 2024

mOSCAR：一个大规模的多语言和多模态的文档级语料库

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix...

TL;DRMultimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Abstract

multimodal large language models (mLLMs) are trained on a large amount of text-image data. While most mLLMs are trained on caption-like data only, Alayrac et al. [2022] showed that additionally training them on interleaved sequences of text and images can lead to the emergence of in-co

multimodal large language models in-context learning capabilities multilingual and multimodal datasets moscar few-shot learning performance

发现论文，激发创造

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

构建大规模的日语网络语料库用于大型语言模型

通过从 Common Crawl 档案中提取和精炼文本，该研究构建了一个大型的日语网页语料库，用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符（约 1.73 亿页），是目前可用的日语训练语料库中最大的，超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练，并在日语基准数据集上取得一致（6.6-8.1 分）的改善，该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。

Apr, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

介绍了 OmniCorpus 数据集，一个 100 亿级别的图文交错数据集，与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯，通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性，为未来的多模态模型研究提供了坚实的数据基础。

Jun, 2024

朝着更干净的面向文档的多语言爬行语料库

本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进，以获得更适合于预训练大型生成语言模型的新版本的方法。

Jan, 2022

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

跨媒体 - 3600：一款大规模多语言多模态评估数据集

本文提出了 Crossmodal-3600 数据集，其中包含 3600 张图片，涵盖了 36 种语言中所使用的地区，并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择，并在使用 XM3600 作为自动度量的黄金参考时，展示出与人工评估更高的相关性结果。

May, 2022

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023