GPT-NeoX-20B：一种开源的自回归语言模型

ACLApr, 2022

GPT-NeoX-20B：一种开源的自回归语言模型

GPT-NeoX-20B: An Open-Source Autoregressive Language Model

Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao...

TL;DR我们介绍 GPT-NeoX-20B，它是一个由 200 亿个参数构成的自回归语言模型，在 Pile 上训练，其权重将通过一个宽松的许可证向公众免费开放。在该工作中，我们描述了模型的架构和训练，并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现，在五次少量数据（few-shot）评估时，GPT-NeoX-20B 是一个特别强大的 few-shot 推理器，并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码，以及模型权重。

Abstract

We introduce gpt-neox-20b, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to th

gpt-neox-20b autoregressive language model 20 billion parameter few-shot reasoner knowledge-based tasks

发现论文，激发创造

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

GPT-Neo 用于常识推理 —— 理论和实践视角

本文评估了 GPT-neo 1.3 亿模型在常识推理任务上的表现，发现模型在某些任务上具有竞争力，但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果，并通过多种方法进行彻底的健壮性测试。

Nov, 2022

GPT-SW3：针对北欧语言的自回归语言模型

本篇论文介绍了第一个本地大型生成语言模型 GPT-SW3 的开发过程，包括数据收集和处理、训练配置和指令微调、评估以及发布策略的考虑，并希望该论文能为其他研究者在小语种的大型生成模型的开发提供指南和参考。

May, 2023

SeqGPT：一个开箱即用的开放领域序列理解大语言模型

SeqGPT 是一种增强的双语模型，专门用于开放领域自然语言理解，通过两个原子任务来表达所有的 NLU 任务并进行指令微调和深度微调，展示了良好的分类和抽取能力，可在未见领域上执行语言理解任务。

Aug, 2023

MAP-Neo：高能透明的双语大型语言模型系列

开源研究中心提供了 MAP-Neo，一个具有可比较性的高性能透明双语语言模型，并公开了所有细节以复现该模型，以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。

May, 2024

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

TechGPT-2.0：大型语言模型项目解决知识图谱构建任务

TechGPT-2.0 是一个项目，旨在增强大型语言模型在知识图谱构建任务中的能力，包括命名实体识别（NER）和关系三元组抽取（RTE）任务。此外，它也是一个面向中国开源模型社区的可访问的 LLM。

Jan, 2024

代码的大型语言模型的系统评估

通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

BloombergGPT: 金融领域的大型语言模型

本文介绍了 BloombergGPT，这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练，我们得到的模型不仅在金融任务上表现出色，还在普遍的 LLM 基准测试上得到了不错的表现，同时也解释了模型构建、训练过程和评估方法。

Mar, 2023

FinGPT: 开源金融领域大型语言模型

本文介绍了一种基于数据驱动和透明资源的开源金融领域大型语言模型（FinGPT），通过自动数据处理管道和低秩度量适应技术，为研究人员和从业者提供访问、透明的资源，并展示了机器人顾问、算法交易和低代码开发等潜在应用。

Jun, 2023