软银系列开放语言模型
介绍了 LLaMA,包含 7B 至 65B 个参数的基础语言模型,使用公开可用的数据集训练,其中 LLaMA-13B 在大多数基准测试中优于 GPT-3(175B),LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。
Feb, 2023
我们介绍了 Orion-14B,这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外,我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明,Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码,旨在激发未来在该领域的研究和实际应用。
Jan, 2024
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
大型语言模型(LLM)在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA,这是一个开源的 150 亿双语不对称 seq2seq 模型,为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA,并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval(难)基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节,包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则,使其对开发者更加方便使用,并在 https URL(此处提供链接)上发布了不同训练阶段的检查点。有关我们项目的更多详细信息,请访问 https URL(此处提供链接)。
Sep, 2023
Nemotron-4 15B 是一种 150 亿参数的大型多语言语言模型,在英语、多语言和编码任务中表现出强大的性能,甚至超过四倍大且专门用于多语言任务的其他模型。
Feb, 2024
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。
Jun, 2024
研究表明,对面向单一领域的数据进行预训练,也可以得到性能强大且经济实惠的替代解决方案,本文以 StackOverflow 为例,使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练,并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。
Jun, 2023
我们介绍 GPT-NeoX-20B,它是一个由 200 亿个参数构成的自回归语言模型,在 Pile 上训练,其权重将通过一个宽松的许可证向公众免费开放。在该工作中,我们描述了模型的架构和训练,并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现,在五次少量数据(few-shot)评估时,GPT-NeoX-20B 是一个特别强大的 few-shot 推理器,并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码,以及模型权重。
Apr, 2022