在 Fine-tuned 语言模型中的任务特定技能定位
我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS),它能在微调过程中自动优化数据使用,以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能,同时在任务特定微调方面,我们提出了一种适应性技术 MoSpec,为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性,并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。
Jun, 2024
该研究旨在从新的角度 —— 发现内在的任务特定子空间,重新参数化和微调预训练语言模型。研究表明,在这个子空间中,预训练语言模型可以通过小部分可调参数进行有效地微调,而一些突兀出现的维度则关键地诱发了特定任务的知识。
May, 2023
本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性,发现这些神经元被称为技能神经元,并证实它们对于任务的处理至关重要且具有任务特异性,可通过适当的微调或冻结车舱重用提取得到。此外,还探索了技能神经元的应用,包括网络修剪和构建更好的可转移性指标,这对于加速 Transformer 的发展和进一步研究也有很大推动作用。
Nov, 2022
本篇研究证明,考虑下游微调方法会提高轻量级微调技术的性能,通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练,我们可以使受过训练的语言模型适合轻量级微调,从而在跨语言 NER 微调中获得高达 1.7 分的收益。
May, 2022
本研究关注于神经网络的权重空间和损失景观,发现细调模型在权重空间中占有良定义区域,通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现,此研究的结论为高效细调提供了理论依据。
Feb, 2023
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
使用具有固定标记预算的新框架,通过学习一组语言模型的技能顺序,从而在任务间提升下游模型性能,减少数据训练量,并引入一种在线数据采样算法 Skill-It,以实现连续预训练和微调中多个技能的高效学习。
Jul, 2023
本文提出一种有效的方式,利用单个、大型的预训练模型同时微调多个下游生成任务,以实现内存有效性的提升,同时在五个多样化的自然语言生成任务上的实验结果表明,仅使用每个任务额外的 2-3% 的参数,我们的模型可以维持或甚至提高整个模型的微调性能。
Apr, 2020
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成,随着模型规模的扩大,它们变得越来越多样化。研究发现,并非所有神经元在不同的数据集上都活跃,这种稀疏性与任务特定能力呈正相关,为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及 LLMs 的所有参数,计算复杂且可能不必要。相反,参数高效的微调方法旨在减少可训练参数的数量,但它们仍在相对宏观(例如,层级)上操作。我们介绍了神经元级微调 (NeFT),一种将参数训练的粒度细化到单个神经元,实现更精确、计算更高效的模型更新的新方法。实验结果表明,NeFT 不仅超过了全参数微调和参数高效微调的性能,还为神经元分析提供了深入洞见。
Mar, 2024