ROOTS 搜索工具:为 LLMs 提供数据透明度
BigScience 团队创建了 Responsible Open-science Open-collaboration Text Sources (ROOTS) 语料库,这是一个包含 59 种语言和 1.6TB 数据的语料库,用于训练 1760 亿参数的 BigScience Large Open-science Open-access Multilingual (BLOOM) 语言模型,并释放了这一语料库的较大子集,希望为大规模单语和多语言建模项目提供数据和处理工具,并刺激关于这个大型多语言语料库的研究。
Mar, 2023
BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型,它使用 ROOTS 语料库进行训练,并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码,以便未来的研究和应用。
Nov, 2022
本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现,结果显示少量样本学习模式下,该模型在许多语言对中表现良好,但 0-shot 性能受到过度生成和错误语言生成的影响。
Mar, 2023
通过评估较小的 BLOOM 模型变体(350m / 560m 和 1b3 / 1b7),我们发现:(1)与 GPT 和 BERT 等 LLM 不同,BLOOM 表现不随参数大小变化;(2)跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差;(3)使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明,BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17%。
Nov, 2022
本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。
Jun, 2023
本研究提出了 BigTrans,它基于 LLaMA-13B 模型,并通过三个步骤对其进行优化,使其在超过 100 种语言上具备多语翻译能力,初步实验表明,BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当,并在 8 种语言对中表现出色。
May, 2023
TigerBot 系列的大型语言模型通过在数据、训练算法、基础设施和应用工具方面的进一步发展,实现了有意义的性能提升,成为领先的学术和工业基准模型,并以开放源代码的方式向社区发布模型,以实现 LLM 领域中的实际应用。
Dec, 2023
我们介绍了 HPLT(高性能语言技术)语言资源,这是一个包括来自 CommonCrawl 和互联网档案的先前未使用的网络爬取的单语和双语语料库的大规模多语言数据集。我们描述了我们采集、管理和处理大型语料库的方法,这些方法依赖于开源软件工具和高性能计算。我们的单语语料库主要关注资源较低到中等的语言,涵盖 75 种语言和总共大约 5.6 万亿个单词(根据文档级别去重)。我们的以英语为中心的平行语料库源自于单语语料库,涵盖 18 种语言对,包括超过 9600 万个对齐的句子对和大约 14 亿个英语单词。HPLT 语言资源是迄今为止史上最大的开放文本语料库之一,为语言建模和机器翻译训练提供了极好的资源。我们公开发布了本工作中使用的语料库、软件和工具。
Mar, 2024
CulturaX 为大型语言模型提供一份多语种数据集,经过严格清洗和去重处理,解决了 LLM 开发中的透明度、幻觉和偏见问题,促进了多语种 LLM 的研究和发展。
Sep, 2023
本技术报告介绍了 Skywork-13B,这是一个大型语言模型(LLMs)系列,它是基于包括英文和中文文本在内的超过 3.2 万亿标记训练的。我们采用两阶段的训练方法,通过使用分段语料库进行通用训练和特定领域增强训练。该模型在流行的基准测试上表现出色,并且在中国语言建模的各个领域中实现了最新的技术水平。此外,我们提出了一种新颖的泄漏检测方法,证明测试数据污染是一个迫切需要 LLM 社区进一步研究的问题。为了推动未来的研究,我们发布了 Skywork-13B 以及培训过程中得到的中间阶段的检查点。我们还发布了部分 SkyPile 语料库,其中包含超过 1500 亿个网络文本标记,这是迄今为止最大的高质量开放中文预训练语料库。我们希望 Skywork-13B 和我们开放的语料库能成为一个宝贵的开源资源,使高质量的 LLMs 变得更加普及。
Oct, 2023