360 智脑技术报告

May, 2024

360Zhinao Technical Report

360Zhinao Team

TL;DR使用 3.4T 的标记数据进行预训练，通过数据清洗和组合策略，将 360Zhinao-7B 模型的上下文窗口扩展至 32K 和 360K，实现了与类似规模模型的竞争性表现。

Abstract

We present 360zhinao models with 7B parameter size and context lengths spanning 4K, 32K and 360K, all available at this https URL For rapi

360zhinao models parameter size context lengths data cleaning pretrain

发现论文，激发创造

初心：1.6B 技术报告

我们提出了 ChuXin，这是一个完全开源的语言模型，具有 1.6 亿个参数。通过轻量级的持续预训练，我们将上下文长度扩展到 1M 个标记，并展示了强大的针对大数据检索性能。

May, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

Zero and R2D2: 一个大规模的中文跨模态基准和视觉语言框架

该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准（ZERO），该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集，并且提出了一个基于预排序和排序机制的 VLP 框架（R2D2），该框架采用目标导向蒸馏和特征导向蒸馏技术，用于实现大规模跨模态学习，并在图像 - 文本检索、文本 - 图像匹配、图像字幕生成、文本到图像生成和零样本图像分类等五个范畴的任务上实现了最先进的表现。

May, 2022

CPM：一个大规模生成式中文预训练语言模型

本文介绍了使用大规模的中文训练数据进行生成式预训练的中国预训练语言模型 (CPM)。CPM 是目前拥有最大的 26 亿参数和 100GB 中文训练数据的中文预训练语言模型，可用于解决多个中文 NLP 任务，并在少样本甚至零样本学习的设置下取得了较强的性能。

Dec, 2020

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

Xmodel-LM 技术报告

我们介绍了 Xmodel-LM，这是一个在超过 2 万亿个标记上进行预训练的紧凑高效的 1.1B 语言模型，通过在我们自建的数据集 (Xdata) 上进行训练，该数据集在下游任务优化的基础上平衡了中文和英文文本，尽管模型规模较小，但 Xmodel-LM 表现出色，显著超过了类似规模的现有开源语言模型。我们的模型检查点和代码在 GitHub 上公开可访问。

Jun, 2024

M6：一个中文多模态预训练模型

本研究构建了最大的中文多模态预训练数据集，提出了一个跨模态预训练方法 M6，并在众多应用领域中展示了其优异性能和高质量图像生成能力。

Mar, 2021

Yi：01.AI 的开放基础模型

我们介绍了 Yi 模型系列，这是一系列展现出强大多维能力的语言和多模态模型。我们的基础模型在 MMLU 等多个基准测试中取得了强大的性能，我们的微调聊天模型在 AlpacaEval 和 Chatbot Arena 等主要评估平台上展现了强大的人类偏好率。在可扩展的超级计算基础设施和经典的 Transformer 架构的基础上，我们主要归因于 Yi 模型的性能是由于数据质量，这是我们数据工程努力的结果。我们相信，通过彻底优化数据并进一步扩大模型参数规模，将会产生更强大的前沿模型。

Mar, 2024