微调发生在微小的子空间中：探索预训练语言模型固有特定任务子空间

ACLMay, 2023

微调发生在微小的子空间中：探索预训练语言模型固有特定任务子空间

Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models

Zhong Zhang, Bang Liu, Junming Shao

TL;DR该研究旨在从新的角度 —— 发现内在的任务特定子空间，重新参数化和微调预训练语言模型。研究表明，在这个子空间中，预训练语言模型可以通过小部分可调参数进行有效地微调，而一些突兀出现的维度则关键地诱发了特定任务的知识。

Abstract

pre-trained language models (PLMs) are known to be overly parameterized and have significant redundancy, indicating a small degree of freedom of the PLMs. Motivated by the observation, in this paper, we study the problem of →

pre-trained language models re-parameterizing fine-tuning intrinsic task-specific subspace outlier dimensions

发现论文，激发创造

通过提示调整探索通用内在任务子空间

本文提出了一种称为内在提示调整 (IPT) 的分析流程，用于在一个统一的低维自然语言处理任务子空间内进行自然语言处理 (PLM) 的调整，研究结果表明，在 250 维的子空间中只需调整 250 个自由参数，即可表现出高的通用性。

Oct, 2021

内在维度解释语言模型微调的有效性

本文通过分析基于内在维度的微调现象，提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象，然后通过实验证明了常规预训练模型具有极低的内在维度。最后，作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。

Dec, 2020

通过学习前缀子空间提高大型语言模型的泛化能力

在稀缺数据情况下，本研究聚焦于大规模语言模型（LLMs）的精细调整，提出了一种基于神经网络子空间的方法，通过在参数空间中联合优化一个模型单纯形来增加 LLMs 的泛化能力。使用 “Parameter Efficient Fine-Tuning”（PEFT）方法来学习连续前缀的整个单纯形，实验证明这种方法与原始方法相兼容，同时在适应 few-shot 学习设置的 GLUE 基准的变种上取得了优于 sota 方法的平均性能提升。

Oct, 2023

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

FreeLM：无微调语言模型

本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy，通过使用语言和强任务感知的 teacher signal 进行交互式训练，提高了该模型在多项任务中的泛化性和鲁棒性，并且相对于大型模型如 GPT-3 和 InstructGPT 而言，该模型较小，只有 0.3B 的参数。

May, 2023

在 Fine-tuned 语言模型中的任务特定技能定位

本文针对预训练语言模型任务中局部技能优化问题提出一种通用解决方案，该方案可显著提高模型预测精度，并在参数效率和任务相似性方面得到优化。

Feb, 2023

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

通过任务空间解释语言模型

通过构建语言任务空间，借助相似性探测与梯度差分的微调方法，研究发现大型语言模型更好地泛化到语言任务的总体概念，利用其共享结构。此外，预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点，这可能解释了语言模型缺乏成功的课程策略的原因。

Jun, 2024