Bloom 图书馆：支持 300 多种语言的多模态数据集，可用于各种下游任务

EMNLPOct, 2022

Bloom 图书馆：支持 300 多种语言的多模态数据集，可用于各种下游任务

Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of Downstream Tasks

PDF

Colin Leong, Joshua Nemecek, Jacob Mansdorfer, Anna Filighera, Abraham Owodunni...

TL;DRBloom Library 是一个多语言多模态数据集；其中含有 363 种语言，是目前包含语言最多的数据集之一，可用于低资源条件下的自然语言处理研究。

Abstract

We present bloom library, a linguistically diverse set of multimodal and multilingual datasets for →

bloom library multimodal multilingual datasets language modeling low-resource nlp

发现论文，激发创造

BLOOM: 一种含 176B 个参数的多语言开放访问语言模型

BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型，它使用 ROOTS 语料库进行训练，并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码，以便未来的研究和应用。

Nov, 2022

研究大型多语言语言模型的翻译性能：以 BLOOM 为例

本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现，结果显示少量样本学习模式下，该模型在许多语言对中表现良好，但 0-shot 性能受到过度生成和错误语言生成的影响。

Mar, 2023

扩展 BLOOM 的预训练，以改进对繁体中文的支持：模型、方法和结果

本文介绍了多语言语言模型 BLOOM-zh，以强化对繁体中文的支持。通过在传统中文和英语领域中增加 74 亿个标记的预训练，BLOOM-zh 在大多数传统中文基准测试中优于其前身。

Mar, 2023

理解 BLOOM：多元自然语言处理任务的实证研究

通过评估较小的 BLOOM 模型变体（350m / 560m 和 1b3 / 1b7），我们发现：（1）与 GPT 和 BERT 等 LLM 不同，BLOOM 表现不随参数大小变化；（2）跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差；（3）使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明，BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17％。

Nov, 2022

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出 BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

BLOOM+1: BLOOM 对零 - shot 提示增加语言支持

该研究旨在提高 BLOOM 模型在未见过语言上的度量表现。研究发现，通过进行语言适应性策略来提高它的零样本度量表现是有效的，快速微调适配器比继续预训练更有效，语言度量表现主要取决于适应数据的大小。同时，通过将新语言添加到多任务微调混合中可以有效地教授 BLOOMZ 模型一种新语言。

Dec, 2022

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

大规模双语言 - 图像对比学习

本文介绍了利用 11 亿的图文对数据（7.08 亿的韩语数据和 4.76 亿的英语数据）训练出的一种名为 KELIP 的韩 - 英双语多模态模型的简单而有效的训练方案，并证明了该模型在两种语言中的性能相当竞争力，同时讨论了一些与多模态相关的研究问题。

Mar, 2022

BigScience ROOTS Corpus：一个 1.6TB 的复合多语言数据集

BigScience 团队创建了 Responsible Open-science Open-collaboration Text Sources (ROOTS) 语料库，这是一个包含 59 种语言和 1.6TB 数据的语料库，用于训练 1760 亿参数的 BigScience Large Open-science Open-access Multilingual (BLOOM) 语言模型，并释放了这一语料库的较大子集，希望为大规模单语和多语言建模项目提供数据和处理工具，并刺激关于这个大型多语言语料库的研究。

Mar, 2023

BigBIO: 用于数据中心的生物医学自然语言处理框架

我们介绍了 BigBIO 项目，这是一个包含 126 个以上生物医学 NLP 数据集的社区库，可用于训练和评估语言模型，其数据集的元数据和编程访问支持元数据集合的构建，并且支持 End-to-End 的零样本任务。

Jun, 2022