OPT：开放预训练 Transformer 语言模型

May, 2022

OPT：开放预训练 Transformer 语言模型

OPT: Open Pre-trained Transformer Language Models

Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen...

TL;DR我们呈现了 Open Pre-trained Transformers (OPT)，一个解码器型的预训练 transformers 套件，范围从 125M 到 175B 个参数，这些我们希望与感兴趣的研究人员完全和负责任地分享。我们展示了 OPT-175B 与 GPT-3 相媲美，同时仅需要 1/7 的碳足迹进行开发。

Abstract

large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capital. For the few that are availa

large language models pre-trained transformers zero- and few-shot learning gpt-3 carbon footprint

发现论文，激发创造

SparseGPT：一次修剪即可在大型语言模型上进行精准压缩

本文提出了一种名为 SparseGPT 的新型剪枝方法，能够高效、准确地应用于海量的 GPT 模型，实现一次性稀疏化至少 50％，并在几乎不影响困惑度的情况下，将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60％。

Jan, 2023

朝着更小、更快的只解码 Transformer：架构变体及其影响

本研究引入了三种变体（ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT）来修改解码器专用的 Transformer 架构，这些变体在代码生成任务中取得了可比较的性能，同时具有模型尺寸较小和训练时间更快的优势。

Apr, 2024

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

关于低资源语言翻译的最优 Transformer 深度

本研究对 Transformer 模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动 “Masakhane” 项目的发展。

Apr, 2020

用戶友好且開源的大型 GPT 模型的研究：對語言、多模態和科學 GPT 模型的調查

通过本综述论文，我们对大规模 GPT 模型的可替代开源模型进行了研究，重点关注用户友好和相对小型的模型，以促进更容易部署和访问。通过这个广泛的调查，我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解，包括它们的当前状态、挑战和未来研究方向，以激发更高效、易于访问和多功能的 GPT 模型的开发，以满足更广泛的科学界需求，推动通用人工智能领域的发展。

Aug, 2023

Cerebras-GPT：基于 Cerebras 晶片集群训练的优化开放式云算模型

通过高效的预训练和扩展、开放数据集和工具来改善大语言模型的最近研究进展；我们将这些进展结合起来，推出了 Cerebras-GPT，这是一个从 111M 扩展到 13B 参数的开放计算最优语言模型家族；我们在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型，并使用 DeepMind Chinchilla 规则进行高效预训练，比较 Cerebras-GPT 和其他公开可用模型，以展示 Cerebras-GPT 上所有模型均在预训练和下游目标上具有最先进的训练效率。我们描述了我们的经验教训，包括最大更新参数化（μP）如何进一步改善大型模型扩展，在规模上提高精度和超参数预测可预测性；我们发布了我们的预训练模型和代码，使本文成为首个将计算最优模型缩放与基于固定数据集尺寸训练的模型进行比较的开放和可重复使用的工作。

Apr, 2023

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

加速需求：一种修剪变换器的方法

一种用于提高预训练变换器体系结构效率的 OPTIN 框架，通过中间特征蒸馏捕捉模型参数的长程依赖（称为轨迹），在不需要重新训练的情况下在自然语言、图像分类、迁移学习和语义分割任务方面产生最先进的结果。同时，在满足 FLOP 限制的情况下，OPTIN 框架将网络进行压缩，保持竞争性准确性性能和提高吞吐量。

Mar, 2024

为低资源神经机器翻译优化 Transformer

本文研究了神经机器翻译中低资源语种的问题，通过在 IWSLT14 数据集上的实验发现，在优化超参数设置的情况下，Transformer 模型在低资源情况下的翻译质量可以提高 7.3 个 BLEU 分数。

Nov, 2020