Nemotron-4 15B 技术报告

Feb, 2024

Nemotron-4 15B Technical Report

Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian...

TL;DRNemotron-4 15B 是一种 150 亿参数的大型多语言语言模型，在英语、多语言和编码任务中表现出强大的性能，甚至超过四倍大且专门用于多语言任务的其他模型。

Abstract

We introduce nemotron-4 15b, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. nemotron-4 15b de

nemotron-4 15b 15-billion-parameter multilingual language model performance multilingual capabilities

发现论文，激发创造

Orion-14B：开源多语言大型语言模型

我们介绍了 Orion-14B，这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外，我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明，Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码，旨在激发未来在该领域的研究和实际应用。

Jan, 2024

多语能力的祝福：Poro 34B

通过多语言训练，研究引入了 Poro 34B 模型，该模型具有 340 亿个参数，并使用 1 万亿个标记的芬兰语、英语和编程语言进行训练，证明了多语言训练方法可以显著改进现有的芬兰语模型，并在翻译和生成英语和编程语言方面具有竞争力。

Apr, 2024

NVIDIA NeMo WMT21 英德及英俄新闻和生物医学任务神经机器翻译系统

本文介绍了 NVIDIA NeMo 神经机器翻译系统在 WMT21 新闻和生物医学共享翻译任务的受限数据跟踪中的运用，其中新闻任务的提交在 Transform 器基础的序列到序列模型上，采用了多项技术手段并且获得了比去年任务最佳提交更好的表现，生物医学任务的提交则采取了医学相关文本来源和生物医学数据的训练集，而两个系统都在测试集上超越了去年任务的最佳提交。

Nov, 2021

使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成式语言模型

本文描述了用于训练 Megatron-Turing NLG 530B （MT-NLG）的基础架构和 3D 并行方法，重点介绍了训练过程、训练语料库的设计和数据精选技术，以及各种评估结果和新特性。作者展示了 MT-NLG 在几个自然语言处理基准测试中具有更优秀的零点、一点和少点学习精度，并且取得了新的最先进结果。

Jan, 2022

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

BTLM-3B-8K：3B 参数模型中的 7B 参数性能

介绍了 Bittensor 语言模型 BTLM-3B-8K，这是一个新的最先进的 30 亿参数的开源语言模型，由 SlimPajama 数据集的 627B 个标记进行训练，具有 2048 和 8192 上下文长度的混合。BTLM-3B-8K 在下游任务中优于所有现有的 30 亿参数模型 2-5.5%，甚至与一些 70 亿参数模型相竞争。此外，BTLM-3B-8K 在长上下文性能方面表现优秀，在高达 8192 上下文长度的任务上超过了 MPT-7B-8K 和 XGen-7B-8K。

Sep, 2023

多语句 - T5：可扩展的多语句编码器适用于多语言应用

我们介绍了基于 NLI 的多语言句子嵌入模型 m-ST5，通过扩展现有的单语模型 Sentence T5 以低秩适应（LoRA）技术成功将模型参数规模扩展到 57 亿，并通过实验证实方法优于基于 NLI 的先前方法，尤其是对资源较少或与英语相似性较低的语言受益更多。

Mar, 2024

BERT 用于芬兰语的多语言处理

本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究，特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同，本文侧重于针对冷门语言芬兰语的研究，探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较，实验结果表明后者的表现较好，成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。

Dec, 2019

GLM-130B: 一个开放式双语预训练模型

GLM-130B 是一种双语预训练语言模型，拥有 1300 亿个参数。通过本文我们介绍了 GLM-130B 的训练过程、设计选择、训练策略、工程努力、以及它有别于其他模型的独特的可扩展性等特点。我们观察到该模型在学习效率和稳定性方面都有非常好的表现，并能在英文和中文语料库中显著地超越 ERNIE TITAN 3.0 和 GPT-3 175B 等知名模型，且有别于其他模型的独特的可扩展性，可以在相对较低的成本下进行使用。

Oct, 2022