mGPT: 少样本学习器转向多语言

Apr, 2022

mGPT: Few-Shot Learners Go Multilingual

Oleh Shliazhko, Alena Fenogenova, Maria Tikhonova, Vladislav Mikhailov, Anastasia Kozlova...

TL;DR本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Abstract

Recent studies report that autoregressive language models can successfully solve many nlp tasks via zero- and few-shot learning paradigms, which opens up new possibilities for using the →

autoregressive language models nlp tasks pre-trained language models gpt-like models multilingual tokenization strategy

发现论文，激发创造

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

多语言语言模型的少样本学习

本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Dec, 2021

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

使用生成预训练转换器进行多语言自动翻译到英语的机器翻译

使用本地生成预训练转换器（GPT）模型进行零 - shot 黑盒多自然语言翻译成英文文本，评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。

Apr, 2024

GPT-NeoX-20B：一种开源的自回归语言模型

我们介绍 GPT-NeoX-20B，它是一个由 200 亿个参数构成的自回归语言模型，在 Pile 上训练，其权重将通过一个宽松的许可证向公众免费开放。在该工作中，我们描述了模型的架构和训练，并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现，在五次少量数据（few-shot）评估时，GPT-NeoX-20B 是一个特别强大的 few-shot 推理器，并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码，以及模型权重。

Apr, 2022

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

mBBC: 探索多语迷宫

多语言语言模型的综合评估：mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估，发现资源可用性对模型性能有重要影响，并且资源可用性、语言家族和脚本类型之间存在复杂关系，为模型选择和部署提供了见解。

Oct, 2023

JASMINE: 用于少样本学习的阿拉伯文 GPT 模型

该论文介绍了一个用于阿拉伯语的强大的自回归 Transformer 语言模型套件 JASMINE，用于 zero 和 few-shot 学习和广泛的 NLP 任务基准测试，旨在填补该领域在不同语言环境和文化中的问题和缺陷以及在这些模型中潜在的社会偏见、伤害和毒性方面的新基准测试。

Dec, 2022

AutoML-GPT：AutoML 的大型语言模型

AutoML-GPT 框架结合了多种工具和库，通过对话界面，用户可以指定需求和约束条件，实现数据预处理、特征工程和模型选择等操作，从而显著减少机器学习任务所需的时间和工作量。它能充分利用大型语言模型中的知识，为模型训练过程中的常见挑战提供宝贵见解和有效解决方案。

Sep, 2023