HyPe: 利用隐藏表示扰动来更好地微调预训练语言模型

Dec, 2022

HyPe: 利用隐藏表示扰动来更好地微调预训练语言模型

HyPe: Better Pre-trained Language Model Fine-tuning with Hidden Representation Perturbation

Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang

TL;DR本研究提出了一种名为 HyPe 的 Fine-tuning 技术，该技术通过扰动 Transformers 层的隐藏表示来缓解 Fine-tuning 中的过拟合和表示坍塌问题，并在 GLUE 等自然语言推理数据集上进行了实验，结果表明，HyPe 优于基本的 Fine-tuning 技术且不会增加额外的计算成本。

Abstract

language models with the transformers structure have shown great performance in natural language processing. However, there still poses pr

transformers fine-tuning hype language models natural language processing

发现论文，激发创造

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

利用表示一致性目标提高语言模型微调

本研究提出了一种新的 fine-tuning 方法，通过抑制表示中不必要的变化来避免表示坍塌，同时对此进行了度量，并在 13 个任务和低数据量及数据标签扰动的情况下得到了显著的性能提高。

May, 2022

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021

SPAFIT: 分层渐进调适微调预训练大型语言模型

本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下，优于其他 PEFT 方法。

Apr, 2024

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

语言模型作为层次编码器

利用超几何空间重新训练语言模型中的分层转换器编码器（Hierarchy Transformer encoders，HiTs），为回归语言模型中隐含的分层结构提供了一种新的方法，通过聚类与层级组织相关实体来提高在推论、预测和跨层次知识传递等任务中的性能和可转移性。

Jan, 2024

基于语义的层冻结方法：高效微调语言模型

通过对语言模型推理过程进行语义分析，我们提出了在层级上进行参数微调的方法，通过估计每个模型层的微调效果以及缩小微调的范围，我们的方法在 LM 微调中表现出有效且高效的特点。

Jun, 2024

用于大型预训练语言模型参数高效微调的神经架构搜索

探讨了一种基于网络剪枝的高效的神经架构搜索方法用于学习预训练模型的参数优化方法 (Parameter-efficient tuning)，并在 GLUE 上的实验结果表明算法的有效性以及 PET 网络结构设计的实际表现。

May, 2023

针对检索任务的细化联合文本和源代码嵌入优化与参数高效微调

基于 Transformer 模型的代码 - 文本检索问题上，我们提出了一种使用参数高效微调技术的微调框架，并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验，我们证明了该微调框架有潜力通过微调最多 0.4％的参数来提高代码 - 文本检索性能。

May, 2024