只需教科书

Jun, 2023

Textbooks Are All You Need

Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno...

TL;DR我们介绍了 Phi-1，这是一种新的大型代码语言模型，比现有的模型要小得多：Phi-1 是一种基于 Transformer 的模型，具有 13 亿个参数，使用来自 Web 的 “教科书品质” 数据（60 亿个标记）和使用 GPT-3.5 合成生成的教科书和练习进行了为期 4 天的训练。尽管规模较小，Phi-1 在 HumanEval 上的 pass@1 准确率为 50.6％，在 MBPP 上为 55.5％。与 phi-1-base（我们的模型在微调阶段之前）和具有相同工艺流程的 phi-1-small（具有 3.5 亿个参数的较小模型）相比，它还展示了令人惊讶的 emergent 属性，虽然仍然实现了 45％的 HumanEval。

Abstract

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: →

phi-1 large language model code transformer-based model textbook quality data

发现论文，激发创造

教科书是你所需的唯一 II: phi-1.5 技术报告

通过对 Transformer-based 语言模型的研究，提出了 phi-1.5—— 一个具有 13 亿参数的模型，其在自然语言任务上的性能与大五倍的模型相当，在更复杂的推理任务上超过了大多数非前沿的模型，同时避免了存在网络数据的问题，并支持开源以促进进一步研究。

Sep, 2023

Phi-3 技術報告：在您的手機上本地運行的功能強大的語言模型

介绍了 phi-3-mini 语言模型，它是一个 38 亿参数的模型，使用 33 万亿标记进行训练，通过学术基准和内部测试的综合表现与 Mixtral 8x7B 和 GPT-3.5 等大型模型相媲美，尽管这个模型足够小而可以在手机上运行。这个创新完全依赖于用于训练的数据集，是 phi-2 数据集的一个扩大版本，由经过严格过滤的网络数据和合成数据组成。此外，说明了模型的鲁棒性、安全性和聊天格式，并提供了 7B 和 14B 模型的初始参数缩放结果，这两个模型分别训练了 48 万亿的标记，相比 phi-3-mini 更加强大（例如 MMLU 分别为 75% 和 78%，MT-bench 分别为 8.7 和 8.9）。

Apr, 2024

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

TinyStories: 语言模型有多小才能够流利地说英语？

本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法，该数据集使用 GPT-3.5 和 GPT-4 生成，只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型，并引入新的评估范式来评估这些模型的语言能力和多维度的得分，例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究，并提高对于语言模型能力的认识。

May, 2023

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

Hardware Phi-1.5B：一个大型语言模型编码硬件领域特定知识

本文介绍了 Hardware Phi 1.5B，一种专门为半导体行业硬件领域设计的创新大型语言模型，通过使用中等数据集进行预训练，该模型在硬件设计和验证任务中展现出改进的性能，为半导体行业的人工智能应用指明了一个有希望的发展方向。

Jan, 2024

大型语言模型

这篇研究论文探讨了人工智能领域的语言模型发展及近期成果，重点介绍了基于变压器架构的大型语言模型的工作原理，以及这些预测模型如何展现出类人的智能水平。

Jul, 2023