玉兰：一个开源的大型语言模型

Jun, 2024

YuLan: An Open-source Large Language Model

Yutao Zhu, Kun Zhou, Kelong Mao, Wentong Chen, Yiding Sun...

TL;DR该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Abstract

large language models (LLMs) have become the foundation of many applications, leveraging their extensive capabilities in processing and understanding natural language. While many open-source llms have been releas

large language models open-source llms yulan pre-training method curriculum-learning framework

发现论文，激发创造

YAYI 2：多语种开源大型语言模型

我们提出了 YAYI 2，这是一个具有 300 亿参数的基础模型和聊天模型的多语言模型，通过多个基准测试表明比其他类似规模的开源模型表现更好。

Dec, 2023

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

ChatLaw: 带外部知识库集成的开源法律大语言模型

本文介绍了一个名为 ChatLaw 的开源法律大语言模型，它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现，解决了参考数据筛选过程中的模型幻觉问题，提升了其解决问题的能力。

Jun, 2023

PolyLM: 一个开源的多语种大语言模型

PolyLM 是一个多语言大型语言模型，经过课程学习和自我指导方法的预训练，可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。

Jul, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

Xmodel-LM 技术报告

我们介绍了 Xmodel-LM，这是一个在超过 2 万亿个标记上进行预训练的紧凑高效的 1.1B 语言模型，通过在我们自建的数据集 (Xdata) 上进行训练，该数据集在下游任务优化的基础上平衡了中文和英文文本，尽管模型规模较小，但 Xmodel-LM 表现出色，显著超过了类似规模的现有开源语言模型。我们的模型检查点和代码在 GitHub 上公开可访问。

Jun, 2024

中文细粒度 LLM：预训练中心化大型语言模型

通过引入 CT-LLM，这项研究介绍了一个 2B 规模的大型语言模型（LLM），以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式，为 LLM 培训方法学的拓宽开创了新的可能性。

Apr, 2024

YUAN 2.0：基于本地化过滤注意力的大型语言模型

本文介绍了基于本地过滤的注意力（LFA）用于在自然语言中引入局部依赖的先前知识。基于 LFA，我们开发并发布了 Yuan 2.0，一个参数范围从 21 亿到 1026 亿的大型语言模型。我们提出了一种数据过滤和生成方法来构建高质量的预训练和微调数据集。同时，我们提出了一种分布式训练方法，包括非均匀流水线并行、数据并行和优化器并行，大大降低了节点内通信的带宽要求，并在大规模分布式训练中取得了良好的性能。与现有模型相比，Yuan 2.0 模型在代码生成、数学问题求解和聊天方面显示出令人印象深刻的能力。最新版本的 Yuan 2.0，包括模型权重和源代码，可在 Github 上获得。

Nov, 2023

Ziya2：数据为中心的学习对 LLM 来说就足够了

提出了 Ziya2 模型，使用数据为中心的优化方法来增强其在不同阶段的学习过程，通过在多个基准测试中的显著优异表现，展示了 Ziya2 相较于其他模型以及开源模型的有希望的结果。

Nov, 2023