Shears:具有神经低秩适配器搜索的非结构稀疏
本文提出了基于稀疏高秩适配器 (SHiRA) 的新范式,通过直接调整基模型权重的 1-2% 来训练高度稀疏的适配器,以在融合模式下实现无推理开销、快速切换和显著降低概念损失的效果。对 LVMs 和 LLMs 的广泛实验表明,仅微调基模型的一小部分参数对许多任务已经足够,并且可以同时实现快速切换和多适配器融合。
Jun, 2024
我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法(PEFT),我们提出了一种新的 PEFT 方法称为 Robust Adaptation(RoSA),通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件,有效地逼近全精调(FFT)解决方案的性能,在需要进行精细调整以获得良好性能的挑战性生成任务中,如小学数学和 SQL 查询生成,我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持,以在训练算法中补充,具体为稀疏 GPU 内核,实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。
Jan, 2024
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
本文提出一种迭代学习方法,旨在解决神经架构搜索中的元学习问题。该方法使用参数共享思想,利用代理模型来减少 NAS 运行时间,并在 DARTs 搜索空间和 NAS-Bench-201 上验证了其可行性。此外,作者还提供了理论分析及脱敏研究以进一步深入了解其技术。
Jun, 2019
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
Jun, 2024
深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应(LoRA)方法的应用,介绍了 LoRA-the-Explorer(LTE)算法,通过在计算节点上进行多个低秩头的并行训练来减少同步频率,使用不同视觉数据集进行广泛实验,并证明 LTE 在标准预训练中具有竞争力。
Feb, 2024
研究了适配器在信息检索领域中的应用,指出适配器 - SPLADE 可以优化只有 2%的训练参数,比全微调模型和现有的参数高效密集 IR 模型表现更佳,并探讨了适配器在跨领域 BEIR 数据集和 TripClick 上的领域自适应,以及 正确性的知识共享,从而完善了适配器在神经 IR 中的研究。
Mar, 2023
插件调整适用于预训练语言模型中;本研究基于稀疏适配器通过带放大系数的参数情况,实现了大的模型容量;通过使用 SNIP 方法和适当的系数,稀疏适配器可以始终优于对应的常规适配器,并且大稀疏设置可以获得进一步的性能提升,甚至可以大幅超过完全微调的性能。
Oct, 2022
介绍了一种新的参数高效微调方法 LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。
May, 2024