对程序化定义任务微调效果的机理分析

Nov, 2023

对程序化定义任务微调效果的机理分析

Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks

Samyak Jain, Robert Kirk, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka...

TL;DR微调预训练模型的能力和安全性的研究表明，微调很少改变模型的底层能力，而是在这些能力之上学习了一种被称为 “包装器” 的微小转换，进一步的微调则可以使模型重新利用这些能力。

Abstract

fine-tuning large pre-trained models has become the de facto strategy for developing both task-specific and general-purpose machine learning systems, including developing models that are safe to deploy. Despite i

fine-tuning pre-trained models model capabilities wrapper safety

发现论文，激发创造

微调预训练模型的稳定性分析

通过理论稳定性分析和提出的新策略，解决预训练模型微调在同样设置下性能稳定性差异问题。

Jan, 2023

精细调整增强现有机制：实体追踪案例研究

通过对细分任务的调优，研究模型的内部计算如何受到影响，并在实体跟踪中显示出性能提升。

Feb, 2024

概念级微调对防止负面迁移的重要性

通过概念微调（Concept-Tuning）方法，可以改善预训练模型的特征表示，减少罕见特征和虚假关联特征的负面影响，进而提高细调方法在各种数据集上的表现。

Nov, 2023

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为 LLMs 的微调实践做出有价值的贡献。

Mar, 2024

预训练变压器中微调和句子级探测在语言知识中的相互作用

本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下，微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响，但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时，需进行慎重解释。

Oct, 2020

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

无监督预训练的泛化能力研究

运用一种新的理论框架，研究无监督预训练对细调模型泛化能力的影响，并通过分析两个具体场景的泛化上限，提出了一种新的预训练正则化方法，从而促进了细调模型的泛化能力。

Mar, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

内在维度解释语言模型微调的有效性

本文通过分析基于内在维度的微调现象，提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象，然后通过实验证明了常规预训练模型具有极低的内在维度。最后，作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。

Dec, 2020

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021