内在维度解释语言模型微调的有效性

Dec, 2020

内在维度解释语言模型微调的有效性

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta

TL;DR本文通过分析基于内在维度的微调现象，提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象，然后通过实验证明了常规预训练模型具有极低的内在维度。最后，作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。

Abstract

Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent a

pretrained language models fine-tuning intrinsic dimension low data regime generalization bounds

发现论文，激发创造

微调发生在微小的子空间中：探索预训练语言模型固有特定任务子空间

该研究旨在从新的角度 —— 发现内在的任务特定子空间，重新参数化和微调预训练语言模型。研究表明，在这个子空间中，预训练语言模型可以通过小部分可调参数进行有效地微调，而一些突兀出现的维度则关键地诱发了特定任务的知识。

May, 2023

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

客观景观的内在维度测量

本文研究神经网络的困难难度和最小描述长度，通过在一个较小的随机空间中训练网络，我们测量特定数据集上的内在维度，得出具有大不同规模的模型的数据集内在维度基本相同，以及压缩网络是可以实现的。

Apr, 2018

对程序化定义任务微调效果的机理分析

微调预训练模型的能力和安全性的研究表明，微调很少改变模型的底层能力，而是在这些能力之上学习了一种被称为 “包装器” 的微小转换，进一步的微调则可以使模型重新利用这些能力。

Nov, 2023

通过提示调整探索通用内在任务子空间

本文提出了一种称为内在提示调整 (IPT) 的分析流程，用于在一个统一的低维自然语言处理任务子空间内进行自然语言处理 (PLM) 的调整，研究结果表明，在 250 维的子空间中只需调整 250 个自由参数，即可表现出高的通用性。

Oct, 2021

展现操作方式：解释在细调语言模型中的作用

我们的研究证明了使用解释来进行微调以提高语言模型性能的显著效益。与提示相比，微调允许模型在训练阶段学习和更新参数。我们将微调应用于包含输出解释而非仅呈现答案的数据中的各种规模的语言模型。即使是具有 6000 万参数的较小语言模型也从该方法中获益良多。有趣的是，我们的结果表明详细解释对较小的模型比大模型更有益处，后者几乎从任何形式的解释中获得同样的优势，无论其长度是多少。此外，我们证明包含解释使模型能够解决无法在没有解释的情况下解决的任务。最后，我们认为尽管添加解释具有挑战性，但包含解释的样本不仅减少了训练所需的数据量，还促进了模型的更有效泛化。总之，我们的研究结果表明，使用解释进行微调显著增强了大型语言模型的性能。

Feb, 2024

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

May, 2021

异常维度编码专业知识

大型语言模型中的离群维度对于嵌入表示的质量具有不利影响，但它们可以编码关键的任务特定知识，并驱动下游模型决策。

Oct, 2023