软银系列开放语言模型

Nov, 2023

The Falcon Series of Open Language Models

Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru...

TL;DRFalcon 系列是一个先验量最大且质量最好的语言模型之一，通过预培训和多种工具的使用，Falcon-180B 在性能上超过了其他模型，使用更低的成本接近 PaLM-2-Large 模型的表现。

Abstract

We introduce the falcon series: 7B, 40B, and 180B parameters causal decoder-only models trained on a diverse high-quality corpora predominantly assembled from web data. The largest model, falcon-180b, has been tr

falcon series causal decoder-only models falcon-180b pretraining language models

发现论文，激发创造

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

Orion-14B：开源多语言大型语言模型

我们介绍了 Orion-14B，这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外，我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明，Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码，旨在激发未来在该领域的研究和实际应用。

Jan, 2024

Tele-FLM 技术报告

大语言模型的扩展和效率提升方法的开放资源，以及展示优于其他模型的跨语言语言建模能力和核心设计。

Apr, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Sep, 2023

Nemotron-4 15B 技术报告

Nemotron-4 15B 是一种 150 亿参数的大型多语言语言模型，在英语、多语言和编码任务中表现出强大的性能，甚至超过四倍大且专门用于多语言任务的其他模型。

Feb, 2024

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

领域特定预训练模型的重要性：相较通用模型而言

研究表明，对面向单一领域的数据进行预训练，也可以得到性能强大且经济实惠的替代解决方案，本文以 StackOverflow 为例，使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练，并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。

Jun, 2023

GPT-NeoX-20B：一种开源的自回归语言模型

我们介绍 GPT-NeoX-20B，它是一个由 200 亿个参数构成的自回归语言模型，在 Pile 上训练，其权重将通过一个宽松的许可证向公众免费开放。在该工作中，我们描述了模型的架构和训练，并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现，在五次少量数据（few-shot）评估时，GPT-NeoX-20B 是一个特别强大的 few-shot 推理器，并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码，以及模型权重。

Apr, 2022