在 Fine-tuned 语言模型中的任务特定技能定位

Feb, 2023

在 Fine-tuned 语言模型中的任务特定技能定位

Task-Specific Skill Localization in Fine-tuned Language Models

Abhishek Panigrahi, Nikunj Saunshi, Haoyu Zhao, Sanjeev Arora

TL;DR本文针对预训练语言模型任务中局部技能优化问题提出一种通用解决方案，该方案可显著提高模型预测精度，并在参数效率和任务相似性方面得到优化。

Abstract

pre-trained language models can be fine-tuned to solve diverse NLP tasks, including in few-shot settings. Thus fine-tuning allows the model to quickly pick up task-specific ``skills,'' but there has been limited

pre-trained language models fine-tuning skill localization parameter-efficient task similarity

发现论文，激发创造

技能混合：学习为优化大型语言模型的数据使用进行微调

我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS)，它能在微调过程中自动优化数据使用，以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能，同时在任务特定微调方面，我们提出了一种适应性技术 MoSpec，为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性，并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。

Jun, 2024

微调发生在微小的子空间中：探索预训练语言模型固有特定任务子空间

该研究旨在从新的角度 —— 发现内在的任务特定子空间，重新参数化和微调预训练语言模型。研究表明，在这个子空间中，预训练语言模型可以通过小部分可调参数进行有效地微调，而一些突兀出现的维度则关键地诱发了特定任务的知识。

May, 2023

在预训练的基于 Transformer 的语言模型中寻找技能神经元

本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性，发现这些神经元被称为技能神经元，并证实它们对于任务的处理至关重要且具有任务特异性，可通过适当的微调或冻结车舱重用提取得到。此外，还探索了技能神经元的应用，包括网络修剪和构建更好的可转移性指标，这对于加速 Transformer 的发展和进一步研究也有很大推动作用。

Nov, 2022

元学习用于参数高效微调

本篇研究证明，考虑下游微调方法会提高轻量级微调技术的性能，通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练，我们可以使受过训练的语言模型适合轻量级微调，从而在跨语言 NER 微调中获得高达 1.7 分的收益。

May, 2022

知识是针对微调语言模型的权重空间中的区域

本研究关注于神经网络的权重空间和损失景观，发现细调模型在权重空间中占有良定义区域，通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现，此研究的结论为高效细调提供了理论依据。

Feb, 2023

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

Skill-it！一种基于数据驱动的技能框架用于理解和训练语言模型

使用具有固定标记预算的新框架，通过学习一组语言模型的技能顺序，从而在任务间提升下游模型性能，减少数据训练量，并引入一种在线数据采样算法 Skill-It，以实现连续预训练和微调中多个技能的高效学习。

Jul, 2023

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

专注于神经元：神经元级别的大语言模型有监督微调

大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成，随着模型规模的扩大，它们变得越来越多样化。研究发现，并非所有神经元在不同的数据集上都活跃，这种稀疏性与任务特定能力呈正相关，为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及 LLMs 的所有参数，计算复杂且可能不必要。相反，参数高效的微调方法旨在减少可训练参数的数量，但它们仍在相对宏观（例如，层级）上操作。我们介绍了神经元级微调 (NeFT)，一种将参数训练的粒度细化到单个神经元，实现更精确、计算更高效的模型更新的新方法。实验结果表明，NeFT 不仅超过了全参数微调和参数高效微调的性能，还为神经元分析提供了深入洞见。

Mar, 2024