不要停止预训练?使基于提示的微调更加强大的学习者
该研究通过对GLUE基准测试中的四个数据集进行BERT的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。
Feb, 2020
本文提出了一种名为PPT的框架,通过在预训练阶段添加软提示来获得更好的初始化,将预训练提示调整用于下游任务可达到或甚至优于整体微调的效果,这对于实际使用大规模预训练语言模型是一种有效和高效的方法。
Sep, 2021
通过优化,使用 P-Tuning v2 方法能够在广泛的模型尺度和自然语言理解任务中取得与微调相当的性能,只需调整 0.1%-3% 的参数。
Oct, 2021
本文研究了三种Prompt(包括Human-designed,Schema以及Null prompt)在有监督/无监督场景下的有效性,最终发现Schema prompt可以提高训练效果,且随着数据规模的扩大,不同Prompt的表现越来越接近。
Mar, 2022
本文提出了input-tuning的概念,旨在通过fine-tuning连续提示和输入表示来更有效地适应陌生的自然语言生成任务输入,实验证明它可以显著且一致地胜过prompt-tuning。
Mar, 2022
研究表明预训练模型在很多代码智能任务中具有很好的效果,但由于不同形式的输入难以完全利用预训练模型的知识,这篇论文通过在代码智能任务中进行提示调整,探索它对模型性能和低资源情况的影响,实验表明相对于微调,提示调整在三项代码智能任务中都能实现更好的表现,特别是在低资源情况下表现更为优秀。
Jul, 2022
本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零-shot以及少量样本情况下语言模型的性能,并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零-shot及几轮试验下的效果提高至31%相对性能,然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐,以优化语言模型的性能。
Oct, 2022
通过超网络生成领域特定的提示,以解决一直持续预训练方法在新领域性能下降的问题,并促进跨领域的知识迁移。该方法在两个真实数据集上实现了3.57%和3.4%的改进,证明其有效性。
Oct, 2023
通过优化语言模型的权重和提示策略,我们提出了一个解决多阶段管道中无中间阶段标签的问题的近似优化策略,实验证明通过一起优化提示和权重能够显著提高性能。
Jul, 2024
本研究探讨了大型语言模型的预训练与微调之间的关系,识别出微调过程中的潜在问题。研究发现,持续的预训练能够增强模型在微调后展示的潜力,且通过额外微调可以显著提升模型对未展示能力的数据集的表现。此外,模型在监督微调后可能会遗忘之前掌握的领域知识,且对评估提示的敏感性较高,但通过增加预训练可以缓解这一敏感性。
Aug, 2024