OpenBA：一个从零开始的开源 15B 双向语言模型预训练

Sep, 2023

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch

Juntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo...

TL;DR大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Abstract

large language models (LLMs) with billions of parameters have demonstrated outstanding performance on various natural language processing tasks. This report presents openba, an open-sourced 15B bilingual

large language models openba asymmetric seq2seq model chinese-oriented open-source model training strategy

发现论文，激发创造

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

OpenBA-V2：使用快速多阶段剪枝达到 77.3% 的高压缩比

通过采用先进的训练目标和数据策略，OpenBA-V2 以最小的性能损失将 LLMs 压缩为更小的模型，这在资源有限的场景中有助于部署 LLMs。

May, 2024

GLM-130B: 一个开放式双语预训练模型

GLM-130B 是一种双语预训练语言模型，拥有 1300 亿个参数。通过本文我们介绍了 GLM-130B 的训练过程、设计选择、训练策略、工程努力、以及它有别于其他模型的独特的可扩展性等特点。我们观察到该模型在学习效率和稳定性方面都有非常好的表现，并能在英文和中文语料库中显著地超越 ERNIE TITAN 3.0 和 GPT-3 175B 等知名模型，且有别于其他模型的独特的可扩展性，可以在相对较低的成本下进行使用。

Oct, 2022

AlexaTM 20B: 使用大规模多语言 Seq2Seq 模型进行小样本学习

本研究旨在探究多语言大规模序列到序列模型 (seq2seq)，其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型，对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型（ AlexaTM 20B）后，发现它在一次性概述任务和机器翻译任务上的性能比一个 540B 的 PaLM 解码器模型更好，并且特别适用于低资源语言。AlexaTM 20B 还可以在零次见示下，胜过 GPT3 (175B) 并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务中提供最先进的性能。总的来说，我们的研究结果表明，seq2seq 模型是一个强大的替代解码器模型的大规模语言模型 (LLM) 的选择。

Aug, 2022

BLOOM: 一种含 176B 个参数的多语言开放访问语言模型

BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型，它使用 ROOTS 语料库进行训练，并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码，以便未来的研究和应用。

Nov, 2022

BigTrans：通过超过 100 种语言的多语种翻译能力增强大型语言模型

本研究提出了 BigTrans，它基于 LLaMA-13B 模型，并通过三个步骤对其进行优化，使其在超过 100 种语言上具备多语翻译能力，初步实验表明，BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当，并在 8 种语言对中表现出色。

May, 2023

Bailong：基于 QLoRA 和 Zip-tie 嵌入的双语迁移学习

我们结合参数高效调整和高级嵌入初始化技术，通过对英语主导的开源大语言模型进行二次预训练，以提高其在繁体中文上的表现，并进一步引入评估平台来检验模型与人类偏好和指令遵循能力的一致性。我们的评估结果显示，我们的模型在多轮对话任务中相比其他类似的开源模型表现出竞争性水平，并提供了 Bailong-instruct 7B 与 Bailong-bench 供社区使用。

Apr, 2024

GEB-1.3B：开放轻量级大型语言模型

最近发展的大型语言模型（LLMs）（如 ChatGPT、Claude 和 Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在 CPU 上高效运行 LLMs 的需求日益增长，我们介绍了 GEB-1.3B，一个在中文和英文语言中训练了 5500 亿标记的轻量级 LLM。我们采用了一些新的训练技术，包括 ROPE、Group-Query-Attention 和 FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了 1000 万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B 在 MMLU、C-Eval 和 CMMLU 等常规基准测试中表现出色，优于 MindLLM-1.3B 和 TinyLLaMA-1.1B 等对比模型。值得注意的是，GEB-1.3B 的 FP32 版本在 CPU 上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B 作为一个开源模型的发布对于轻量级 LLMs 的发展具有重要意义，有望促进该领域的进一步研究和创新。

Jun, 2024

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

Tele-FLM 技术报告

大语言模型的扩展和效率提升方法的开放资源，以及展示优于其他模型的跨语言语言建模能力和核心设计。

Apr, 2024