ACLApr, 2022

GPT-NeoX-20B:一种开源的自回归语言模型

TL;DR我们介绍 GPT-NeoX-20B,它是一个由 200 亿个参数构成的自回归语言模型,在 Pile 上训练,其权重将通过一个宽松的许可证向公众免费开放。在该工作中,我们描述了模型的架构和训练,并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现,在五次少量数据(few-shot)评估时,GPT-NeoX-20B 是一个特别强大的 few-shot 推理器,并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码,以及模型权重。