ROOTS 搜索工具：为 LLMs 提供数据透明度

Feb, 2023

ROOTS 搜索工具：为 LLMs 提供数据透明度

The ROOTS Search Tool: Data Transparency for LLMs

Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo Laurençon, Gérard Dupont...

TL;DR该研究介绍了 ROOTS，一个 1.6TB 的多语言文本语料库和 ROOTS 搜索工具，后者是一个可提供模糊和精确搜索功能的搜索引擎，以便为 BLOOM 等语言模型提供训练数据，并提供数据治理等方面的保障。ROOTS 是目前可以进行此类探究的最大语料库之一，并且有了开源的 ROOTS 搜索工具，可以通过 Hugging Face Spaces 进行访问。

Abstract

ROOTS is a 1.6TB multilingual text corpus developed for the training of BLOOM, currently the largest language model explicitly accompanied by commensurate →

multilingual text corpus data governance search tool language model hugging face spaces

发现论文，激发创造

BigScience ROOTS Corpus：一个 1.6TB 的复合多语言数据集

BigScience 团队创建了 Responsible Open-science Open-collaboration Text Sources (ROOTS) 语料库，这是一个包含 59 种语言和 1.6TB 数据的语料库，用于训练 1760 亿参数的 BigScience Large Open-science Open-access Multilingual (BLOOM) 语言模型，并释放了这一语料库的较大子集，希望为大规模单语和多语言建模项目提供数据和处理工具，并刺激关于这个大型多语言语料库的研究。

Mar, 2023

BLOOM: 一种含 176B 个参数的多语言开放访问语言模型

BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型，它使用 ROOTS 语料库进行训练，并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码，以便未来的研究和应用。

Nov, 2022

研究大型多语言语言模型的翻译性能：以 BLOOM 为例

本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现，结果显示少量样本学习模式下，该模型在许多语言对中表现良好，但 0-shot 性能受到过度生成和错误语言生成的影响。

Mar, 2023

理解 BLOOM：多元自然语言处理任务的实证研究

通过评估较小的 BLOOM 模型变体（350m / 560m 和 1b3 / 1b7），我们发现：（1）与 GPT 和 BERT 等 LLM 不同，BLOOM 表现不随参数大小变化；（2）跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差；（3）使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明，BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17％。

Nov, 2022

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

BigTrans：通过超过 100 种语言的多语种翻译能力增强大型语言模型

本研究提出了 BigTrans，它基于 LLaMA-13B 模型，并通过三个步骤对其进行优化，使其在超过 100 种语言上具备多语翻译能力，初步实验表明，BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当，并在 8 种语言对中表现出色。

May, 2023

TigerBot：一个开放的多语言多任务 LLM

TigerBot 系列的大型语言模型通过在数据、训练算法、基础设施和应用工具方面的进一步发展，实现了有意义的性能提升，成为领先的学术和工业基准模型，并以开放源代码的方式向社区发布模型，以实现 LLM 领域中的实际应用。

Dec, 2023

一种新的大规模多语言数据集用于高性能语言技术

我们介绍了 HPLT（高性能语言技术）语言资源，这是一个包括来自 CommonCrawl 和互联网档案的先前未使用的网络爬取的单语和双语语料库的大规模多语言数据集。我们描述了我们采集、管理和处理大型语料库的方法，这些方法依赖于开源软件工具和高性能计算。我们的单语语料库主要关注资源较低到中等的语言，涵盖 75 种语言和总共大约 5.6 万亿个单词（根据文档级别去重）。我们的以英语为中心的平行语料库源自于单语语料库，涵盖 18 种语言对，包括超过 9600 万个对齐的句子对和大约 14 亿个英语单词。HPLT 语言资源是迄今为止史上最大的开放文本语料库之一，为语言建模和机器翻译训练提供了极好的资源。我们公开发布了本工作中使用的语料库、软件和工具。

Mar, 2024

CulturaX：一个干净、庞大且多语言的数据集，适用于拥有 167 种语言的大型语言模型

CulturaX 为大型语言模型提供一份多语种数据集，经过严格清洗和去重处理，解决了 LLM 开发中的透明度、幻觉和偏见问题，促进了多语种 LLM 的研究和发展。

Sep, 2023

Skywork：一种更开放的双语基础模型

本技术报告介绍了 Skywork-13B，这是一个大型语言模型（LLMs）系列，它是基于包括英文和中文文本在内的超过 3.2 万亿标记训练的。我们采用两阶段的训练方法，通过使用分段语料库进行通用训练和特定领域增强训练。该模型在流行的基准测试上表现出色，并且在中国语言建模的各个领域中实现了最新的技术水平。此外，我们提出了一种新颖的泄漏检测方法，证明测试数据污染是一个迫切需要 LLM 社区进一步研究的问题。为了推动未来的研究，我们发布了 Skywork-13B 以及培训过程中得到的中间阶段的检查点。我们还发布了部分 SkyPile 语料库，其中包含超过 1500 亿个网络文本标记，这是迄今为止最大的高质量开放中文预训练语料库。我们希望 Skywork-13B 和我们开放的语料库能成为一个宝贵的开源资源，使高质量的 LLMs 变得更加普及。

Oct, 2023