不可能三角形：预训练语言模型的下一步是什么？

Apr, 2022

不可能三角形：预训练语言模型的下一步是什么？

Impossible Triangle: What's Next for Pre-trained Language Models?

Chenguang Zhu, Michael Zeng

TL;DR本文介绍了如何改进预训练语言模型在 NLP 任务中的表现，探讨了使用预训练语言模型中存在的问题，并提出了解决方法。同时，讨论了如何在未来研究预训练模型的发展方向和目标。

Abstract

Recent development of large-scale pre-trained language models (PLM) have significantly improved the capability of models in various nlp tasks, in terms of performance after task-specific fine-tuning and zero-shot

large-scale pre-trained language models nlp tasks few-shot learning knowledge distillation future research directions

发现论文，激发创造

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

预训练语言模型在知识密集型自然语言处理中的研究调查

本文介绍了基于预训练语言模型的知识增强模型（PLMKEs）的当前进展，并通过分析三个重要组成部分：知识来源，知识密集型 NLP 任务和知识融合方法来介绍其挑战和未来方向。

Feb, 2022

语言模型零样本函数组合性的探索

本文探讨了预训练语言模型的功能组合性问题，并指出当前的 PLMs（例如 GPT-2 和 T5）还没有具有功能组合性，远未达到人类级别的泛化能力。同时，对于零样本功能组合的语言模型提出了研究方向。

Mar, 2023

调整语言模型作为训练数据生成器，用于增强少样本学习

本文从不同的角度研究 PLM 的 few-shot 学习，通过调参后作为生成器合成了大量的新训练样本，使用加权最大似然度量进行训练以鼓励生成器生成分类标签的样本，并使用正则化 fine-tuned 在小样本和合成样本上取得了比现有 few-shot 学习方法更好的结果，GLUE 基准测试中超过无增加方法 5 + 平均点数和增加方法 3 + 平均点数。

Nov, 2022

预训练语言模型可完全零样本学习

本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt，能够有效扩展一个预训练模型到多个语言理解任务，且不需要标注数据或附加未标注语料库进行微调。实验结果表明，NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。

Dec, 2022

知识增强的预训练语言模型：综述

本文论述了预训练语言模型（PLM）的重要性以及知识增强型预训练语言模型（KE-PLMs）的研究现状，探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。

Oct, 2021

通过聚类表示，使预训练语言模型成为更好的零样本学习器

本文通过将聚类方法应用于提前训练的语言模型的嵌入空间中，展示了在主题和情感分类数据集上，该方法在无需另作准备的情况下显著提高了零 - shot 文本分类的性能；并发现该方法不需要 Fine-tuning 就可以将文本分类；最后，文章还比较了不同 PLM 嵌入空间，并发现即使 PLM 未明确预训练为生成有意义的句子嵌入，它仍然能按主题将文本很好地聚类。

Oct, 2022

自动内容分析的少样本学习：对乌克兰军火交付辩论中论点和主张的高效编码

使用多语言 Transformer 模型和适配器扩展加上少样本学习方法的组合，成功地在沟通科学领域的实际案例中实现了通过自动检测声明和论据并确定其立场来改善包括复杂语义类别编码在大数据集上的自动内容分析，提供了与完全微调 PLMs 相媲美的有效性，同时在沟通研究中具有更好的特性。

Dec, 2023

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020