Nov, 2023

YUAN 2.0:基于本地化过滤注意力的大型语言模型

TL;DR本文介绍了基于本地过滤的注意力(LFA)用于在自然语言中引入局部依赖的先前知识。基于 LFA,我们开发并发布了 Yuan 2.0,一个参数范围从 21 亿到 1026 亿的大型语言模型。我们提出了一种数据过滤和生成方法来构建高质量的预训练和微调数据集。同时,我们提出了一种分布式训练方法,包括非均匀流水线并行、数据并行和优化器并行,大大降低了节点内通信的带宽要求,并在大规模分布式训练中取得了良好的性能。与现有模型相比,Yuan 2.0 模型在代码生成、数学问题求解和聊天方面显示出令人印象深刻的能力。最新版本的 Yuan 2.0,包括模型权重和源代码,可在 Github 上获得。