通过知识交互改善参数高效微调

Dec, 2023

GIST: Improving Parameter Efficient Fine Tuning via Knowledge Interaction

Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang, Zefang Yu...

TL;DR提出了一种新的 fine-tuning 框架，名为 GIST，通过引入 Gist token 和知识交互的概念，增强了 PEFT 方法在下游任务中的性能，进一步提升了预训练模型对下游任务的理解能力。

Abstract

The parameter-efficient fine-tuning (PEFT) method, which adjusts or introduces fewer trainable parameters to calibrate pre-trained models on downstream tasks, has become a recent research interest. However, exist

parameter-efficient fine-tuning peft methods gist framework knowledge interaction pre-trained models

发现论文，激发创造

视觉语言预训练模型参数高效微调的实证研究

最近的研究应用了参数高效微调技术（PEFTs）来有效缩小预训练和下游任务之间的性能差距。该研究发现，对于与预训练一致的下游微调任务，数据规模不再影响性能，而可微参数规模的影响并不单调，这种观察可指导 PEFTs 的训练策略选择。

Mar, 2024

Point-PEFT: 3D 预训练模型的参数高效微调

通过 Point-PEFT 框架，我们能够在只使用可训练参数的 5% 的情况下，实现优于完全微调的性能，充分展示了我们方法的高效性和有效性。

Oct, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023

无需增加延迟的参数高效微调

本文提出了一种任务不可知的生成稀疏掩码的方法，仅使用预训练参数的振幅信息，可以显著提高性能和存储效率，并引入了一种新颖的适配器技术，可以直接应用于预训练参数，与全细调速度相同。

May, 2023

医学图像分析的参数高效微调：错过的机会

本文首次全面评估 Parameter-Efficient Fine-Tuning (PEFT) 技术对不同医学图像分析任务的适用性，通过超过 600 个控制实验，研究并比较了 16 种不同的 PEFT 方法，解决了 PEFT 技术在基础模型中的应用问题，展示了在某些情况下的高达 22% 的表现提高，并证明了 PEFT 对于医学图像识别和文本到图像生成具有实际应用价值。

May, 2023

大型模型的参数高效微调：综合调查

通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容，该论文对大模型在计算成本方面的问题进行了综述，提供了对性能和系统实施的深入洞察，为研究人员了解最新发展和实际应用提供了不可或缺的资源。

Mar, 2024

PEMT：多任务相关导引的专家组合混合使得参数高效迁移学习

我们提出了一种基于多任务迁移学习的新型参数高效微调框架 (PEMT)，通过在源任务上训练适配器的加权组合来捕捉可转移的知识，同时利用任务描述提示向量来衡量目标任务与每个源任务之间的相关性，以充分利用任务特定的知识并提高稀疏性。实验证明，我们的方法在各种任务上相较于完全微调、PEFT 和知识转移方法都取得了稳定的改进，突出了其能够充分利用多任务之间的知识和相关特征的有效性。

Feb, 2024

软件工程任务中参数高效微调的综合评估

基于预训练模型的参数高效调整方法在软件工程领域的效果与效率的全面评估研究。

Dec, 2023

语义是信标：揭示参数高效微调的语义视角在知识学习中的应用

通过采用语义视角研究，揭示了 Parameter-Efficient Fine-Tuning（PEFT）方法在知识学习任务中的限制原因，并提出了数据过滤策略和语义距离加权学习策略，以提高模型对知识学习的关注度。实验证明了该方法在开源大语言模型上的有效性，并为未来的研究铺平道路。

May, 2024

Q-PEFT：大型语言模型中用于文本重新排序的查询相关参数高效微调

通过引入查询依赖的参数高效微调方法，本文提出了一种文本重新排序的方法，通过泄漏真实查询信息给大型语言模型以使其更容易从输入文档中生成真实查询，从而进一步提高重新排序性能。

Apr, 2024