GLM-130B: 一个开放式双语预训练模型

Oct, 2022

GLM-130B: 一个开放式双语预训练模型

GLM-130B: An Open Bilingual Pre-trained Model

Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai...

TL;DRGLM-130B 是一种双语预训练语言模型，拥有 1300 亿个参数。通过本文我们介绍了 GLM-130B 的训练过程、设计选择、训练策略、工程努力、以及它有别于其他模型的独特的可扩展性等特点。我们观察到该模型在学习效率和稳定性方面都有非常好的表现，并能在英文和中文语料库中显著地超越 ERNIE TITAN 3.0 和 GPT-3 175B 等知名模型，且有别于其他模型的独特的可扩展性，可以在相对较低的成本下进行使用。

Abstract

We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and →

bilingual pre-trained language model engineering challenges training strategies outperforms ernie and gpt-3 unique scaling property

发现论文，激发创造

GEB-1.3B：开放轻量级大型语言模型

最近发展的大型语言模型（LLMs）（如 ChatGPT、Claude 和 Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在 CPU 上高效运行 LLMs 的需求日益增长，我们介绍了 GEB-1.3B，一个在中文和英文语言中训练了 5500 亿标记的轻量级 LLM。我们采用了一些新的训练技术，包括 ROPE、Group-Query-Attention 和 FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了 1000 万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B 在 MMLU、C-Eval 和 CMMLU 等常规基准测试中表现出色，优于 MindLLM-1.3B 和 TinyLLaMA-1.1B 等对比模型。值得注意的是，GEB-1.3B 的 FP32 版本在 CPU 上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B 作为一个开源模型的发布对于轻量级 LLMs 的发展具有重要意义，有望促进该领域的进一步研究和创新。

Jun, 2024

ChatGLM: 从 GLM-130B 到 GLM-4 的大型语言模型工具家族

介绍了 ChatGLM 的发展历程以及 GLM-4 系列语言模型的特点和优势，包括它们通过多阶段的预训练过程实现高质量的对齐，并且在多项评估中表现出与 GPT-4 相媲美甚至超越的性能，同时还介绍了一系列开源模型所取得的成功成果。

Jun, 2024

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

CPM：一个大规模生成式中文预训练语言模型

本文介绍了使用大规模的中文训练数据进行生成式预训练的中国预训练语言模型 (CPM)。CPM 是目前拥有最大的 26 亿参数和 100GB 中文训练数据的中文预训练语言模型，可用于解决多个中文 NLP 任务，并在少样本甚至零样本学习的设置下取得了较强的性能。

Dec, 2020

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Sep, 2023

BTLM-3B-8K：3B 参数模型中的 7B 参数性能

介绍了 Bittensor 语言模型 BTLM-3B-8K，这是一个新的最先进的 30 亿参数的开源语言模型，由 SlimPajama 数据集的 627B 个标记进行训练，具有 2048 和 8192 上下文长度的混合。BTLM-3B-8K 在下游任务中优于所有现有的 30 亿参数模型 2-5.5%，甚至与一些 70 亿参数模型相竞争。此外，BTLM-3B-8K 在长上下文性能方面表现优秀，在高达 8192 上下文长度的任务上超过了 MPT-7B-8K 和 XGen-7B-8K。

Sep, 2023

Orion-14B：开源多语言大型语言模型

我们介绍了 Orion-14B，这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外，我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明，Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码，旨在激发未来在该领域的研究和实际应用。

Jan, 2024

Xmodel-LM 技术报告

我们介绍了 Xmodel-LM，这是一个在超过 2 万亿个标记上进行预训练的紧凑高效的 1.1B 语言模型，通过在我们自建的数据集 (Xdata) 上进行训练，该数据集在下游任务优化的基础上平衡了中文和英文文本，尽管模型规模较小，但 Xmodel-LM 表现出色，显著超过了类似规模的现有开源语言模型。我们的模型检查点和代码在 GitHub 上公开可访问。

Jun, 2024

GLM-Dialog: 知识驱动对话生成的噪声容错预训练

GLM-Dialog 是一个拥有 10B 参数的大规模语言模型，使用搜索引擎来访问网络知识进行基于知识的中文对话，在评估方面提出了一种新的评估方法，同时发布了模型检查点和源代码，并通过微信应用程序与用户进行交互，以促进开源模型和可靠对话评估系统的发展。

Feb, 2023