不可能三角形:预训练语言模型的下一步是什么?
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
本文介绍了基于预训练语言模型的知识增强模型(PLMKEs)的当前进展,并通过分析三个重要组成部分:知识来源,知识密集型 NLP 任务和知识融合方法来介绍其挑战和未来方向。
Feb, 2022
本文探讨了预训练语言模型的功能组合性问题,并指出当前的 PLMs(例如 GPT-2 和 T5)还没有具有功能组合性,远未达到人类级别的泛化能力。同时,对于零样本功能组合的语言模型提出了研究方向。
Mar, 2023
本文从不同的角度研究 PLM 的 few-shot 学习,通过调参后作为生成器合成了大量的新训练样本,使用加权最大似然度量进行训练以鼓励生成器生成分类标签的样本,并使用正则化 fine-tuned 在小样本和合成样本上取得了比现有 few-shot 学习方法更好的结果,GLUE 基准测试中超过无增加方法 5 + 平均点数和增加方法 3 + 平均点数。
Nov, 2022
本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt,能够有效扩展一个预训练模型到多个语言理解任务,且不需要标注数据或附加未标注语料库进行微调。实验结果表明,NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。
Dec, 2022
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021
本文通过将聚类方法应用于提前训练的语言模型的嵌入空间中,展示了在主题和情感分类数据集上,该方法在无需另作准备的情况下显著提高了零 - shot 文本分类的性能;并发现该方法不需要 Fine-tuning 就可以将文本分类;最后,文章还比较了不同 PLM 嵌入空间,并发现即使 PLM 未明确预训练为生成有意义的句子嵌入,它仍然能按主题将文本很好地聚类。
Oct, 2022
使用多语言 Transformer 模型和适配器扩展加上少样本学习方法的组合,成功地在沟通科学领域的实际案例中实现了通过自动检测声明和论据并确定其立场来改善包括复杂语义类别编码在大数据集上的自动内容分析,提供了与完全微调 PLMs 相媲美的有效性,同时在沟通研究中具有更好的特性。
Dec, 2023
LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF 组合的技术在低资源环境下具有显著改进,最高可达 30%,平均提高 11%。
Dec, 2020
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020