YUAN 2.0：基于本地化过滤注意力的大型语言模型

Nov, 2023

YUAN 2.0：基于本地化过滤注意力的大型语言模型

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li...

TL;DR本文介绍了基于本地过滤的注意力（LFA）用于在自然语言中引入局部依赖的先前知识。基于 LFA，我们开发并发布了 Yuan 2.0，一个参数范围从 21 亿到 1026 亿的大型语言模型。我们提出了一种数据过滤和生成方法来构建高质量的预训练和微调数据集。同时，我们提出了一种分布式训练方法，包括非均匀流水线并行、数据并行和优化器并行，大大降低了节点内通信的带宽要求，并在大规模分布式训练中取得了良好的性能。与现有模型相比，Yuan 2.0 模型在代码生成、数学问题求解和聊天方面显示出令人印象深刻的能力。最新版本的 Yuan 2.0，包括模型权重和源代码，可在 Github 上获得。

Abstract

In this work, the localized filtering-based attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. Based on LFA, we develop and release yuan 2.0, a

localized filtering-based attention yuan 2.0 large language model data filtering distributed training

发现论文，激发创造

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

玄元 2.0：拥有数百亿参数的大规模中文金融聊天模型

XuanYuan 2.0 is a pre-trained Chinese chat model created using the BLOOM-176B architecture and trained using the hybrid-tuning method to provide accurate responses in the field of Chinese finance.

May, 2023

YAYI 2：多语种开源大型语言模型

我们提出了 YAYI 2，这是一个具有 300 亿参数的基础模型和聊天模型的多语言模型，通过多个基准测试表明比其他类似规模的开源模型表现更好。

Dec, 2023

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

Yi：01.AI 的开放基础模型

我们介绍了 Yi 模型系列，这是一系列展现出强大多维能力的语言和多模态模型。我们的基础模型在 MMLU 等多个基准测试中取得了强大的性能，我们的微调聊天模型在 AlpacaEval 和 Chatbot Arena 等主要评估平台上展现了强大的人类偏好率。在可扩展的超级计算基础设施和经典的 Transformer 架构的基础上，我们主要归因于 Yi 模型的性能是由于数据质量，这是我们数据工程努力的结果。我们相信，通过彻底优化数据并进一步扩大模型参数规模，将会产生更强大的前沿模型。

Mar, 2024

TechGPT-2.0：大型语言模型项目解决知识图谱构建任务

TechGPT-2.0 是一个项目，旨在增强大型语言模型在知识图谱构建任务中的能力，包括命名实体识别（NER）和关系三元组抽取（RTE）任务。此外，它也是一个面向中国开源模型社区的可访问的 LLM。

Jan, 2024

UL2: 统一语言学习范式

提出一个统一框架的预训练模型，通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合，将不同的预训练范例结合在一起，对于多个不同领域的数据集都具有普适性，并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。

May, 2022

Tele-FLM 技术报告

大语言模型的扩展和效率提升方法的开放资源，以及展示优于其他模型的跨语言语言建模能力和核心设计。

Apr, 2024

Ziya2：数据为中心的学习对 LLM 来说就足够了

提出了 Ziya2 模型，使用数据为中心的优化方法来增强其在不同阶段的学习过程，通过在多个基准测试中的显著优异表现，展示了 Ziya2 相较于其他模型以及开源模型的有希望的结果。

Nov, 2023

PanGu-$α$: 大规模自回归预训练中文语言模型及自动并行计算

本文介绍了在 MindSpore 框架下使用 2048 Ascend 910 AI 处理器集群训练了包含 2000 亿个参数的 PanGu-alpha 预训练语言模型及其并行算法，测试了其在各种场景下的生成能力 (包括文本摘要、问答、对话生成等) 以及探究其在零样本及少样本情况下的表现，证明了其在这些任务中的卓越能力。

Apr, 2021