多语言语言模型的少样本学习

EMNLPDec, 2021

Few-shot Learning with Multilingual Language Models

Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen...

TL;DR本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Abstract

Large-scale generative language models such as GPT-3 are competitive few-shot learners. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this w

generative language models multilingual learning few-shot learning cross-lingual transfer natural language inference

发现论文，激发创造

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

Few-Shot 学习在机器翻译中的不合理有效性

通过少量有质量的翻译数据训练的自监督学习解码器模型，在没有多语言联合训练或反向翻译的情况下，在较高和较低资源语言对中均显示出潜力。同时，该方法还提供了一种控制翻译属性的方法，为可控机器翻译系统铺平了道路。

Feb, 2023

基于语言模型检索的多语言少样本学习

本文在多语言和交叉语言设置下，通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。

Jun, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

预训练语言模型用于简短文本自然语言生成

该文提出了少样本自然语言生成（Few-shot natural language generation）任务，设计了基于内容选择和语言建模的模型架构，表现良好。

Apr, 2019

细看少样本跨语种迁移：Shot 数量的选择很关键

本研究针对少样本跨语言迁移问题进行了试验设计和成功案例分析，并提出了集成功效设计的实验方案。通过对六个不同自然语言处理任务的 40 组样本进行分析，阐明了字典特性在少样本迁移中的作用，并证明了简单的完整模型微调方法在少样本迁移中的有效性。同时，开放了部分样本，为标准化的跨语言实验设计提供了参考。

Dec, 2020