预训练表示的双调谐
运用一种新的理论框架,研究无监督预训练对细调模型泛化能力的影响,并通过分析两个具体场景的泛化上限,提出了一种新的预训练正则化方法,从而促进了细调模型的泛化能力。
Mar, 2024
本文提出了预细调(pre-finetuning)的方法,是在语言模型预训练和微调之间增加一个大规模学习阶段,旨在促进学习出更好地适用于许多不同任务的表示。通过大规模的多任务学习,预细调在广泛的任务中显著提高了预训练鉴别器和生成模型的性能,并显著提高了微调的样本效率。
Jan, 2021
研究了预训练模型在给定目标任务中的最佳适应方式,着重探讨了 fine-tuning 和 feature extraction 两种常见的适应形式的相对性能,并提出了一组适用于 NLP 应用者的模型调整指南。
Mar, 2019
通过概念微调(Concept-Tuning)方法,可以改善预训练模型的特征表示,减少罕见特征和虚假关联特征的负面影响,进而提高细调方法在各种数据集上的表现。
Nov, 2023
本文通过引入一种基于文本监督的微调方法(TeS),旨在缓解预训练模型中的 bias 问题,并在 11 个下游任务上进行了验证。实验结果表明,该方法能够显著提高微调的效果。
Apr, 2023
引入一种新的预训练程序,利用有监督对比学习来区分每个预训练数据集中的特征,进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐,以提高目标数据的准确预测。
Nov, 2023
本文研究了无监督微调的问题,提出了两种简单有效的策略来将源数据和目标数据进行组合以实现更好的传递性能。通过在多个不同的目标数据集上进行广泛的实验,表明了所提出的 “无监督微调” 策略比朴素策略具有更好的传递性能。
Oct, 2021
通过比较 prompt-tuning 和 fine-tuning 的表示,在神经解码方面,我们发现对于 10 个自然语言理解任务,prompt-tuning 优于 fine-tuning,表明更符合大脑的调节方法获得的表征与脑部数据更相关。此外,我们发现与其他任务相比,处理细粒度概念意义的任务在解码大脑激活模式方面表现更好,尤其是句法分块任务,这表明在表示语言时,我们的大脑编码了更多细粒度的概念信息而不仅仅是浅层句法信息。
Oct, 2023
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020