联合重新参数化的多层适应性用于高效和私密调整

ACLMay, 2023

联合重新参数化的多层适应性用于高效和私密调整

Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private Tuning

Umang Gupta, Aram Galstyan, Greg Ver Steeg

TL;DR本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

Abstract

Efficient finetuning of pretrained language transformers is becoming increasingly prevalent for solving natural language processing tasks. While effective, it can still require a large number of tunable parameters. This can be a drawback for →

pretrained language transformers finetuning strategy low-resource applications differential-privacy constraints random projections

发现论文，激发创造

共享超网络的 Transformer 多任务微调的参数高效方法

本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架，从而在跨任务共享知识的同时，通过任务特定的适配器使模型适应每个单独的任务，并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。

Jun, 2021

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

基于层裁剪的医疗报告摘要和医学对话生成参数高效微调

本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架，用于对医学报告进行摘要提取，并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层，加速了训练速度，减少 GPU 内存的使用，并且保持自由文本生成质量的同时，提高了模型的效率和效益。

May, 2023

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

语言模型差分隐私微调

本篇研究提供了更简单、更稀疏、更快速的算法来实现大规模预训练语言模型的差分隐私微调，在许多标准 NLP 任务上实现了最先进的隐私与实用性平衡。我们提出了一个元框架来解决这个问题，并在该领域中取得了最好的实用效果、隐私性、私有训练的计算和存储成本。

Oct, 2021

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

通过动态参数调整彻底改变大型语言模型训练

在大语言模型时代，提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法，引入了一种新颖的参数高效训练技术，通过频繁改变可训练参数的一部分，提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少，与当前最先进的参数高效算法相当，而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。

Jun, 2024