高效的零样本学习无须提示
通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法,我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法,并提出了一个基于 T0 模型的简单配方,称为 T-Few,在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性,首次达到了超人类表现,并超越了现有技术的 6%。
May, 2022
本文研究了参数高效微调方法和少样本自然语言生成,提出了一个超越传统方法且在训练成本上没有明显增加的方法,同时通过中间实验证明了该方法在少样本场景中的卓越可迁移性,为数据不充足和计算有限的情况提供了解决方案。此外,综合比较了多种参数高效微调方法,揭示了在少样本自然语言生成任务中某些方法在挑战性数据集上可能存在困难。
Sep, 2023
PET 方法结合文本说明与示例微调,在真实的 few-shot 设置实现强大的性能表现,在 RAFT 基准下取得了新的最高水平,并在 11 项任务中有 7 项接近于非专家人类表现。
Nov, 2021
基于大规模数据进行预训练的基础模型在各种自然成像下游任务中广泛取得成功。参数高效微调方法旨在通过仅更新少量参数以减少计算开销,使基础模型适应新领域。然而,这些参数高效微调方法的有效性,尤其是在跨域少样本场景(如医学图像分析)中,并未完全探讨。本研究旨在促进参数高效微调在将基础模型适应于医学图像分类任务中的性能研究。此外,为了缓解主流提示微调方法中提示引入方式和 Transformer 架构的逼近能力限制,我们提出了嵌入式提示微调(EPT)方法,通过将提示符嵌入扩展通道。我们还发现基础模型在预训练过程中的特征空间分布存在异常,而提示微调可以帮助缓解此负面影响。为了解释这一现象,我们还引入了一种新颖的视角来理解提示微调: extbf {提示微调是一种分布校准器}。我们通过分析 EPT 中包含的基于补丁的缩放和特征分离操作来支持这一观点。我们的实验表明,EPT 在少样本医学图像分类任务上显著优于几种先进的微调方法,并在竞争激烈的时间内完成微调过程,表明 EPT 是一种有效的参数高效微调方法。一旦被接受,我们的代码将会发布。
Jul, 2024
基于 Transformer 模型的代码 - 文本检索问题上,我们提出了一种使用参数高效微调技术的微调框架,并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验,我们证明了该微调框架有潜力通过微调最多 0.4%的参数来提高代码 - 文本检索性能。
May, 2024
本文通过一系列超过 1.8k 个控制实验,对少样本图像分类的 PEFT(参数效率微调)方法进行了大规模、实验一致的经验分析,发现只微调层归一化参数及学习一组每个注意力矩阵的缩放参数的方法,成为 Vision Transformer 预训练模型最强大的微调方法。此外,对于自监督 ViTs,我们发现仅学习每个注意力矩阵的缩放参数和一个 Domain-residual adapter(DRA)模块即可实现无与伦比的性能表现,而模型可参数化程度更高。
Apr, 2023
本文通过全面实证研究发现,适当的 Tuning 数量的 Parameter-efficient fine-tuning methods,特别是使用了嵌入小型前馈神经网络 (adapters) 的模型,可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平,尤其当参数预算为 10%的情况下。但是,当调优参数数量减少时,PEFT 的性能会随之减弱,这一降低幅度取决于语言对的关系,而对于小型数据集,PEFT 的性能优于同样的预训练模型的全模型调整。
May, 2022
本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法,称为 Stratified Progressive Adaptation Fine-tuning(SPAFIT)。我们在 GLUE 基准测试中进行的实验证明,我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下,优于其他 PEFT 方法。
Apr, 2024
本文提出了一种任务不可知的生成稀疏掩码的方法,仅使用预训练参数的振幅信息,可以显著提高性能和存储效率,并引入了一种新颖的适配器技术,可以直接应用于预训练参数,与全细调速度相同。
May, 2023