Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

Oct, 2021

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning

Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo Zhang, Chong Shen...

TL;DR本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Abstract

Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, w

distributed training language model nlp tasks data processing calibration

发现论文，激发创造

多语言语言模型的少样本学习

本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Dec, 2021

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

YUAN 2.0：基于本地化过滤注意力的大型语言模型

本文介绍了基于本地过滤的注意力（LFA）用于在自然语言中引入局部依赖的先前知识。基于 LFA，我们开发并发布了 Yuan 2.0，一个参数范围从 21 亿到 1026 亿的大型语言模型。我们提出了一种数据过滤和生成方法来构建高质量的预训练和微调数据集。同时，我们提出了一种分布式训练方法，包括非均匀流水线并行、数据并行和优化器并行，大大降低了节点内通信的带宽要求，并在大规模分布式训练中取得了良好的性能。与现有模型相比，Yuan 2.0 模型在代码生成、数学问题求解和聊天方面显示出令人印象深刻的能力。最新版本的 Yuan 2.0，包括模型权重和源代码，可在 Github 上获得。

Nov, 2023

CPM：一个大规模生成式中文预训练语言模型

本文介绍了使用大规模的中文训练数据进行生成式预训练的中国预训练语言模型 (CPM)。CPM 是目前拥有最大的 26 亿参数和 100GB 中文训练数据的中文预训练语言模型，可用于解决多个中文 NLP 任务，并在少样本甚至零样本学习的设置下取得了较强的性能。

Dec, 2020

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

玄元 2.0：拥有数百亿参数的大规模中文金融聊天模型

XuanYuan 2.0 is a pre-trained Chinese chat model created using the BLOOM-176B architecture and trained using the hybrid-tuning method to provide accurate responses in the field of Chinese finance.

May, 2023

亿级参数比域内训练数据更有价值：在法律推理任务中的案例研究

本文中，我们使用了零 shot 模型在 COLIEE 2022 的法律案例蕴含任务中进行了实验，并发现语言模型参数数量的增加可以提高 F1 分数，尤其是对于该任务。我们的 3B 零 shot 模型在 COLIEE 2021 测试集中表现优异，在 COLIEE 2022 比赛中也取得了最佳表现，其次是由 3B 模型本身和较小版本的模型组成的集成模型。此外，我们还演示了零 shot monoT5-3b 模型在生产中如何作为搜索引擎使用，包括用于法律文件。

May, 2022

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

ERNIE 3.0：大规模知识增强的语言理解与生成预训练

提出了一种统一的框架 ERNIE 3.0，用于预训练大规模知识增强模型，利用自回归网络和自编码网络相结合的方法来让训练好的模型适用于自然语言理解和生成任务，结果表明，该模型在 54 个中文 NLP 任务上优于现有技术，英文版本超越人类表现 + 0.8%。

Jul, 2021