面向参数高效的迁移学习统一视角

ICLROct, 2021

面向参数高效的迁移学习统一视角

Towards a Unified View of Parameter-Efficient Transfer Learning

Junxian He, Chunting Zhou, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig

TL;DR本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Abstract

Fine-tuning large pre-trained language models on downstream tasks has become the de-facto learning paradigm in nlp. However, conventional approaches fine-tune all the parameters of the pre-trained model, which becomes prohibitive as the model size and the number of tasks grow. Recent w

transfer learning pre-trained models parameter-efficient fine-tuning design choices nlp

发现论文，激发创造

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

缩小规模以进行高效参数微调指南

本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法，这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性，提供了一种包括多种方法的分类方法，并重点关注实际效率和微调超大规模语言模型。

Mar, 2023

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

元学习用于参数高效微调

本篇研究证明，考虑下游微调方法会提高轻量级微调技术的性能，通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练，我们可以使受过训练的语言模型适合轻量级微调，从而在跨语言 NER 微调中获得高达 1.7 分的收益。

May, 2022

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

视觉语言预训练模型参数高效微调的实证研究

最近的研究应用了参数高效微调技术（PEFTs）来有效缩小预训练和下游任务之间的性能差距。该研究发现，对于与预训练一致的下游微调任务，数据规模不再影响性能，而可微参数规模的影响并不单调，这种观察可指导 PEFTs 的训练策略选择。

Mar, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

自我监督模型引导的普适框架，以提高参数效率的微调

提出了一个增强参数高效方法的少样本适应和跨领域泛化能力的通用框架，通过使用自监督模型来迅速适应各种下游少样本任务，并在一个包含 160 个不同 NLP 任务的跨领域基准上进行了实验证明，在额外的训练任务调整 PLM 的前提下最佳性能，综合分析了各种少样本跨领域场景下的参数高效方法。

Dec, 2022