在大型语言模型中培养孩子：朝着有效和具有普适性的微调

EMNLPSep, 2021

在大型语言模型中培养孩子：朝着有效和具有普适性的微调

Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

Runxin Xu, Fuli Luo, Zhiyuan Zhang, Chuanqi Tan, Baobao Chang...

TL;DR本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术，通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集，实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于普通 fine-tuning，平均分数高出 1.5~8.6 分。此外，领域转移和任务转移的实证结果表明，Child-Tuning 可以大幅提高泛化性能。

Abstract

Recent pretrained language models extend from millions to billions of parameters. Thus the need to fine-tune an extremely large pretrained model with a limited training corpus arises in various downstream tasks. In this paper, we propose a straightforward yet effective →

pretrained language models fine-tuning child-tuning glue benchmark generalization performance

发现论文，激发创造

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

缩小规模以进行高效参数微调指南

本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法，这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性，提供了一种包括多种方法的分类方法，并重点关注实际效率和微调超大规模语言模型。

Mar, 2023

使用小型语言模型来微调大型语言模型的仿真器

通过借鉴 RL 的框架，引入了一种名为模拟微调（EFT）的技术，从而将预训练和微调的知识与技能解耦，并且通过扩大微调的规模来提高可帮助性，扩大预训练的规模来提高事实性，从而实现在测试时调整不同行为特征的方法，而无需额外训练。

Oct, 2023

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

通过不间断学习探索预训练跨语言模型的微调技巧

针对 fine-tuning 预训练语言模型后其跨语言能力减弱的问题，该研究提出了一种利用 continual learning 来保持其原有跨语言能力的方法，并在句子检索、跨语言词性标注和命名实体识别等任务中达到更好的性能。

Apr, 2020

原型微调：实现在数据大小变化下的强大性能

本文提出了原型微调框架，结合大的参数模型和非参数模型，通过对预训练语言模型进行微调，自动学习偏差，提高预测性能，并提出了四个原则，以向最优解效果调整原型。实验结果表明，在各种低资源情况下，我们的方法在不降低性能的情况下取得了显着的性能提升。

Nov, 2022

规范化的蒙版调整：揭示预训练视觉语言模型中的隐藏知识

我们设计了一种名为正则化掩码调优的新型调优方法，在下游任务中通过学习的选择来屏蔽网络参数，从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中，通过实验证明了这种方法在不同数据集上的优越性能。

Jul, 2023