- 从 LoRA 权重中恢复数据集大小
我们引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了 DSiRe 方法,用于恢复用于微调模型的图像数量,并发现 LoRA 矩阵的范数和频谱与微调数据集的大小密切相关,我们利用这一发现提出了一个 - 无缝语言扩展:增强自监督模型中的多语言掌握能力
我们提出了通过将 LoRA 整合到已有的自我监督模型中,实现新语言的自适应,并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整,实验证明该方法使 mHuBERT 应用于新语言(普通话)的 MOS 值增加 1.6,WER 相 - 通过量化的 LoRA 技术促进联邦学习的数据和模型隐私保护
在联邦学习的背景下,我们引入一种方法来保护数据和模型的隐私,只需在训练过程中分发模型参数的量化版本。该方法结合了量化策略和 LoRA,显著降低了联邦学习中的通信成本,并且确保了数据和模型的隐私保护,同时提高了中央模型的泛化能力和资源利用效率 - 持续学习中 PEFT 技术的选择:调优并不是你所需要的全部
本研究揭示了未经审查的 Prompt tuning 选择对持续学习系统的整体性能产生负面影响,使用 LoRA 替代 Prompt tuning 的变体在领域增量和类别增量基准上实现了更高的准确性,同时具有相似的推理速度。
- SVFT:具有奇异向量的参数高效微调
通过在参数更新中使用矩阵的稀疏组合,SVFT 方法在仅使用 0.006% 到 0.25% 的可训练参数时,能够恢复高达 96% 的全面微调性能,超过了仅使用 0.03% 到 0.8% 的可训练参数预算恢复的最高 85% 性能。
- LoRA-XS:低秩适应与极小参数
介绍了一种新的参数高效微调方法 LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。
- 关于大型模型的低秩适应的公平性
通过对视觉和语言领域的分类和生成任务进行广泛实验,我们发现低秩适应(LoRA)在许多情况下具有与基准模型或其完整微调基准相当甚至更好的公平性,但也引发了适当任务设计和模型成员偏差评估等公平性评估方面的复杂性。
- 大型语言模型微调中的稀疏矩阵
通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT - MeteoRA: 用于大型语言模型的嵌入式 LoRA 多任务系统
在本研究中,我们介绍了 extbf {MT-LoRA}(多任务嵌入 LoRA),这是一个可扩展的多知识 LoRA 融合框架,旨在用于大型语言模型(LLMs)。MT-LoRA 通过混合专家(MoE)的方式将各种 LoRA 适配器集成到基本 L - ICML离散傅里叶变换的参数高效微调
通过 Fourier 变换进一步压缩可训练参数,用于精细调整基础模型,以达到与 LoRA 相当甚至更好的性能表现,但参数数量更少。
- HydraLoRA:一种用于高效微调的非对称 LoRA 架构
通过一系列实验,我们发现了两个关键的见解,揭示了 LoRA 的训练和参数效率问题,基于这些见解,我们开发了 HydraLoRA,这是一个具有不对称结构的 LoRA 框架,消除了对领域专业知识的需求,我们的实验表明,HydraLoRA 优于其 - Hyper-SD: 轨迹分段一致性模型的高效图像合成
Hyper-SD is a novel framework that combines the advantages of ODE Trajectory Preservation and Reformulation, achieving s - LoRA 专家混合模型
引入了 Mixture of LoRA Experts (MoLE) 方法,利用分层控制和无限制的分支选择,实现了对 LoRA 的优化融合性能和弹性组合能力的提升。通过在自然语言处理(NLP)和视觉与语言(V&L)领域进行广泛的实验评估,证 - LoRA 丢弃法作为过拟合控制的稀疏正则化器
本文提出了一种 LoRA Dropout 机制,通过向可学习的低秩矩阵引入随机噪声和增加参数稀疏性,从稀疏正则化的角度证明了 LoRA Dropout 机制的理论机制,并提供了在该框架下的泛化误差界限。理论结果表明适当的稀疏性可以帮助缩小经 - 关于 LoRA 的注释
LoRA 是一种高效适应大型语言模型 (LLM) 的首选方法,具有显著的简洁性和有效性,本文提供了对原始 LoRA 论文的补充视角,并为大规模部署 LoRA 提供了一系列的见解,以改善对 LoRA 的理解和应用。
- PiSSA:大型语言模型的主要奇异值和奇异向量适应
通过使用降维方法和奇异值分解(SVD)初始化,PiSSA 方法能够在较短的时间内收敛并获得比 LoRA 更好的性能。
- 使用 B-LoRA 实现隐式样式内容分离
使用 B-LoRA 方法,通过分析 SDXL 和 LoRA 的结构,提出了一种隐式分离单一图像的样式和内容组件的方法,从而有效改进图像样式处理,解决模型微调时常见的过拟合问题。
- 基于矩阵变换的低秩适应(MTLoRA):一种启发式的参数高效微调方法
该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术,通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能,取得了显著的提升。
- 大规模语言模型低秩适应的无导数优化
在少样本情境中,本研究通过将低秩模块添加到模型的自注意力层中,并采用两种无导数优化方法来交叉优化这些低秩模块,展示出与现有的基于梯度的参数高效调整和无导数优化方法相比,在多个任务和语言模型上取得了显著改进,并在内存使用和收敛速度方面表现出明 - LoRA 作为攻击!在共享播放场景下穿透 LLM 安全
在这项研究中,我们深入研究了在不断增长的共享和使用情境中,如何将后门注入 LoRA 模块,并更深入地探索了 LoRA 的感染机制。我们发现,在 LoRA 后门注入中,无需进行训练即可实现机制。同时,我们还研究了当多个 LoRA 适应并存以及