利用表示一致性目标提高语言模型微调
本论文提出了基于信任区域理论的简化和高效的 fine-tuning 方法,用参数化噪音代替了以前使用的对抗目标,从而在不损害性能的情况下尽可能地减少表示更改。针对 fine-tuning 时的表示崩溃问题,我们还引入了一种新的分析方法。实验证明,我们的 fine-tuning 方法在多种任务上效果优秀且速度更快,在表示的泛化性方面也更稳定。
Aug, 2020
本研究提出了一种名为 HyPe 的 Fine-tuning 技术,该技术通过扰动 Transformers 层的隐藏表示来缓解 Fine-tuning 中的过拟合和表示坍塌问题,并在 GLUE 等自然语言推理数据集上进行了实验,结果表明,HyPe 优于基本的 Fine-tuning 技术且不会增加额外的计算成本。
Dec, 2022
本文提出了一种新颖的方法,通过在预训练语言模型的隐藏表示上操作,通过将自编码器插入到 PLM 的隐藏层之间,将以前层的激活转换为多视图压缩表示,然后输入到上层,以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。
Nov, 2022
研究发现,预训练的转换语言模型在很多 NLP 任务上表现出色;然而,这些模型在短语级别的表示中,除了词汇内容外,缺乏复杂的组合短语信息,进一步的 fine-tuning 只能在情感任务中局部提高性能,而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。
May, 2021
本研究提出采用一致性正则化改进跨语言 fine-tuning 的方法,通过示例一致性正则化对子词采样、高斯噪声、代码切换和机器翻译四种数据增广方式的敏感性进行惩罚,并采用模型的一致性正则化方法对同一训练集上经过增广的两个版本的模型进行规范化。在 XTREME 基准测试中,实验结果表明,我们的方法显着提高了跨语言 fine-tuning 在各种任务中的性能,包括文本分类、问题回答和序列标注。
Jun, 2021
该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题,实验证明该方法在自然语言处理的多个任务中表现优异。
Oct, 2020
本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。
Aug, 2019
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019
本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题,并提出了一种有效的方法,即在辅助语言建模目标的基础上鼓励细调模型学习生成表示,从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。
May, 2023
运用一种新的理论框架,研究无监督预训练对细调模型泛化能力的影响,并通过分析两个具体场景的泛化上限,提出了一种新的预训练正则化方法,从而促进了细调模型的泛化能力。
Mar, 2024