预训练语言模型在长尾学习中的应用
提出了一种有效的长尾 Prompt 调整方法用于长尾分类。该方法使用两个阶段的培训范例来学习训练可调节的提示符。实验证明,与之前的整个模型微调方法相比,此方法具有可比较的性能,并且更加强大。
Oct, 2022
本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用,使用 prompt-tuning 进行多语言 NLU 任务(包括句子分类、序列标注和问题解答)中的跨语言评估,并与传统的微调方法进行了比较。结果表明,prompt-tuning 在跨数据集跨语言传递方面比微调表现更好,而且只需调整 0.1% 到 0.3% 的参数。此外,分析表明,prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。
Oct, 2022
通过引入 PEL 方法,该研究通过少于 20 个时期的微调,无需额外数据即可适应长尾识别任务,并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题,从而持续优于之前的最佳方法。
Sep, 2023
CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架,它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。
Apr, 2022
研究预训练语言模型的 prompt tuning,从通用性和有限深度固定权重的预训练 transformers 的限制方面分析了 prompt tuning 的作用,证明了 prompt tuning 在有限深度 transformers 中存在限制,并给出了所需的可调 prompt 参数的下限。
May, 2023
本文提出了一种名为 PPT 的框架,通过在预训练阶段添加软提示来获得更好的初始化,将预训练提示调整用于下游任务可达到或甚至优于整体微调的效果,这对于实际使用大规模预训练语言模型是一种有效和高效的方法。
Sep, 2021
开发用于大型语言模型的软提示学习算法,研究词干的形状、使用冻结 / 非冻结语言模型进行文字调优、迁移学习和少样本学习的能力。
Oct, 2023
论文探究了预训练语言模型在 NLP 任务上的应用,提出了一种基于潜变量生成模型的分析框架,并分别分析了 head tuning 和 prompt tuning 两种方式,在合适的条件下潜变量和分类器之间的关系可以解决下游任务。作者在大量的合成实验中验证了该框架的可行性。
Jun, 2021
本文介绍了基于知识拓展的 Prompt-learning 方法来解决短文本分类中的标签扩展问题,并在三个著名数据集上实验,结果比其他方法均取得了显著提高。
Feb, 2022
该研究提出了一种名为 Late Prompt Tuning (LPT) 的 PETuning 方法,它将追加的提示插入到 PTM 的中间层而非输入层或所有层,并通过一个神经提示生成器获得实例依赖的提示,具有更快的训练速度和更低的内存成本,可在全数据和少样本场景下实现与全模型调整和其他 PETuning 方法竞争的性能。
Oct, 2022