利用表示一致性目标提高语言模型微调

May, 2022

利用表示一致性目标提高语言模型微调

Improving language models fine-tuning with representation consistency targets

Anastasia Razdaibiedina, Vivek Madan, Zohar Karnin, Ashish Khetan, Vishaal Kapoor

TL;DR本研究提出了一种新的 fine-tuning 方法，通过抑制表示中不必要的变化来避免表示坍塌，同时对此进行了度量，并在 13 个任务和低数据量及数据标签扰动的情况下得到了显著的性能提高。

Abstract

fine-tuning contextualized representations learned by pre-trained language models has become a standard practice in the NLP field. However, pre-trained representations are prone to degradation (also known as representation collapse) during →

fine-tuning pre-trained language models representation collapse regularization-based methods robustness

发现论文，激发创造

通过降低表示坍塌改善微调

本论文提出了基于信任区域理论的简化和高效的 fine-tuning 方法，用参数化噪音代替了以前使用的对抗目标，从而在不损害性能的情况下尽可能地减少表示更改。针对 fine-tuning 时的表示崩溃问题，我们还引入了一种新的分析方法。实验证明，我们的 fine-tuning 方法在多种任务上效果优秀且速度更快，在表示的泛化性方面也更稳定。

Aug, 2020

HyPe: 利用隐藏表示扰动来更好地微调预训练语言模型

本研究提出了一种名为 HyPe 的 Fine-tuning 技术，该技术通过扰动 Transformers 层的隐藏表示来缓解 Fine-tuning 中的过拟合和表示坍塌问题，并在 GLUE 等自然语言推理数据集上进行了实验，结果表明，HyPe 优于基本的 Fine-tuning 技术且不会增加额外的计算成本。

Dec, 2022

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021

跨语言细调的一致性正则化

本研究提出采用一致性正则化改进跨语言 fine-tuning 的方法，通过示例一致性正则化对子词采样、高斯噪声、代码切换和机器翻译四种数据增广方式的敏感性进行惩罚，并采用模型的一致性正则化方法对同一训练集上经过增广的两个版本的模型进行规范化。在 XTREME 基准测试中，实验结果表明，我们的方法显着提高了跨语言 fine-tuning 在各种任务中的性能，包括文本分类、问题回答和序列标注。

Jun, 2021

使用弱监督微调预训练语言模型：一种对比正则自训练方法

该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题，实验证明该方法在自然语言处理的多个任务中表现优异。

Oct, 2020

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Aug, 2019

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

保留预训练特征有助于校准微调语言模型

本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题，并提出了一种有效的方法，即在辅助语言建模目标的基础上鼓励细调模型学习生成表示，从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。

May, 2023

无监督预训练的泛化能力研究

运用一种新的理论框架，研究无监督预训练对细调模型泛化能力的影响，并通过分析两个具体场景的泛化上限，提出了一种新的预训练正则化方法，从而促进了细调模型的泛化能力。

Mar, 2024