Sep, 2023

OpenBA:一个从零开始的开源 15B 双向语言模型预训练

TL;DR大型语言模型(LLM)在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA,这是一个开源的 150 亿双语不对称 seq2seq 模型,为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA,并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval(难)基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节,包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则,使其对开发者更加方便使用,并在 https URL(此处提供链接)上发布了不同训练阶段的检查点。有关我们项目的更多详细信息,请访问 https URL(此处提供链接)。