预训练语言模型在长尾学习中的应用

EMNLPMay, 2022

预训练语言模型在长尾学习中的应用

Making Pretrained Language Models Good Long-tailed Learners

Chen Zhang, Lei Ren, Jingang Wang, Wei Wu, Dawei Song

TL;DR通过实证研究，发现 prompt-tuning 可以成为良好的 long-tailed 学习器，并探究了该方法背后的关键因素是分类器结构和参数化，而非输入结构。该结果也适用于 few-shot 分类任务。

Abstract

prompt-tuning has shown appealing performance in few-shot classification by virtue of its capability in effectively exploiting pre-trained knowledge. This motivates us to check the hypothesis that →

prompt-tuning few-shot classification long-tailed classification pretrained language models classifier structure

发现论文，激发创造

LPT: 长尾蛇形提示调整技术用于图像分类

提出了一种有效的长尾 Prompt 调整方法用于长尾分类。该方法使用两个阶段的培训范例来学习训练可调节的提示符。实验证明，与之前的整个模型微调方法相比，此方法具有可比较的性能，并且更加强大。

Oct, 2022

Prompt-Tuning 在使用多语言语言模型进行跨语言理解方面比 Fine-Tuning 更好

本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用，使用 prompt-tuning 进行多语言 NLU 任务（包括句子分类、序列标注和问题解答）中的跨语言评估，并与传统的微调方法进行了比较。结果表明，prompt-tuning 在跨数据集跨语言传递方面比微调表现更好，而且只需调整 0.1% 到 0.3% 的参数。此外，分析表明，prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。

Oct, 2022

参数高效的长尾识别

通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Sep, 2023

用对比提示调整使预训练语言模型成为端到端的小样本学习模型

CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架，它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。

Apr, 2022

提示调整的普适性和限制性

研究预训练语言模型的 prompt tuning，从通用性和有限深度固定权重的预训练 transformers 的限制方面分析了 prompt tuning 的作用，证明了 prompt tuning 在有限深度 transformers 中存在限制，并给出了所需的可调 prompt 参数的下限。

May, 2023

PPT: 预训练提示调整用于少样本学习

本文提出了一种名为 PPT 的框架，通过在预训练阶段添加软提示来获得更好的初始化，将预训练提示调整用于下游任务可达到或甚至优于整体微调的效果，这对于实际使用大规模预训练语言模型是一种有效和高效的方法。

Sep, 2021

模型调整还是提示调整？针对临床概念和关系提取的大型语言模型研究

开发用于大型语言模型的软提示学习算法，研究词干的形状、使用冻结 / 非冻结语言模型进行文字调优、迁移学习和少样本学习的能力。

Oct, 2023

预训练语言模型为什么有助于下游任务？对头部和提示调整的分析

论文探究了预训练语言模型在 NLP 任务上的应用，提出了一种基于潜变量生成模型的分析框架，并分别分析了 head tuning 和 prompt tuning 两种方式，在合适的条件下潜变量和分类器之间的关系可以解决下游任务。作者在大量的合成实验中验证了该框架的可行性。

Jun, 2021

短文本分类的 Prompt-Learning

本文介绍了基于知识拓展的 Prompt-learning 方法来解决短文本分类中的标签扩展问题，并在三个著名数据集上实验，结果比其他方法均取得了显著提高。

Feb, 2022

晚阶段调优：晚期提示可能比诸多提示更好

该研究提出了一种名为 Late Prompt Tuning (LPT) 的 PETuning 方法，它将追加的提示插入到 PTM 的中间层而非输入层或所有层，并通过一个神经提示生成器获得实例依赖的提示，具有更快的训练速度和更低的内存成本，可在全数据和少样本场景下实现与全模型调整和其他 PETuning 方法竞争的性能。

Oct, 2022