微调可以有多精细？学习高效语言模型

Apr, 2020

微调可以有多精细？学习高效语言模型

How fine can fine-tuning be? Learning efficient language models

Evani Radiya-Dixit, Xin Wang

TL;DR通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Abstract

State-of-the-art performance on language understanding tasks is now achieved with increasingly large networks; the current record holder has billions of parameters. Given a language model pre-trained on massive unlabeled text corpora, only very light supervised fine-tuning is needed to

language models fine-tuning bert parameter space sparsification

发现论文，激发创造

如何操作？在 Transformer 微调期间冻结图层

本文研究使用预训练的 transformer-based 语言模型 BERT 和 RoBERTa 在文本关系、语义相似性、情感分析和语言可接受性等标准任务中微调不同层数的效果，结果表明微调最后一层的四分之一即可达到 90% 的原始质量，微调所有层并不总是有更好的效果。

Nov, 2019

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

关于语言编码器的手术微调

为适应新任务，研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能，提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标，并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。

Oct, 2023

元学习用于参数高效微调

本篇研究证明，考虑下游微调方法会提高轻量级微调技术的性能，通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练，我们可以使受过训练的语言模型适合轻量级微调，从而在跨语言 NER 微调中获得高达 1.7 分的收益。

May, 2022

内在维度解释语言模型微调的有效性

本文通过分析基于内在维度的微调现象，提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象，然后通过实验证明了常规预训练模型具有极低的内在维度。最后，作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。

Dec, 2020

缩小规模以进行高效参数微调指南

本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法，这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性，提供了一种包括多种方法的分类方法，并重点关注实际效率和微调超大规模语言模型。

Mar, 2023

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

深入探究微调如何改变 BERT

本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响，并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论，其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能，还发现了一个对 “细调总是提高性能” 的普遍看法的例外，并且发现细调不会引入任意更改，而是在保留数据点的原始空间结构的同时将其调整到下游任务。

Jun, 2021

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023