- VB-LoRA:基于向量库的极度参数高效的微调
通过使用 “divide-and-share” 范式并引入向量库,VB-LoRA 实现了极高的参数效率同时保持与当前最先进 PEFT 方法相当甚至更好的性能。
- MoRA: 参数高效微调的高阶更新
为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题,本文提出了一种名为 MoRA 的新方法,通过引入相应的非参数操作来降低输入维度并增加输出维度,从而实现了高秩更新,同时保持了可训练参数的数量,并在五个任务中对该方法进行了全面 - MeteoRA: 用于大型语言模型的嵌入式 LoRA 多任务系统
在本研究中,我们介绍了 extbf {MT-LoRA}(多任务嵌入 LoRA),这是一个可扩展的多知识 LoRA 融合框架,旨在用于大型语言模型(LLMs)。MT-LoRA 通过混合专家(MoE)的方式将各种 LoRA 适配器集成到基本 L - CVPRTriLoRA:在文本到图像生成中集成 SVD 的高级风格个性化
综合奇异值分解(Singular Value Decomposition)与低秩适应(Low-Rank Adaptation)参数更新策略,提高图像生成模型的微调效率和输出质量,改善模型的泛化能力和创造性灵活性,同时在受限资源条件下保持良好 - 基于低秩适应的时间序列基础模型在领域外模态预测中的应用
通过对 Lag-Llama、MOIRAI 和 Chronos 这三个基础模型应用 Low-Rank Adaptation (LoRA) 技术,本研究探讨了在时间序列数据中使用 LoRA 对预测严重感染患者生命体征的影响,证明了 LoRA 在 - LoRA 学习更少,遗忘更少
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化 - 大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化
基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题,为了解决这些挑战,我们提出了低秩自适应和高斯随机权重平均的简单结合,促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试,我们证明了我们简单而高效 - ICML离散傅里叶变换的参数高效微调
通过 Fourier 变换进一步压缩可训练参数,用于精细调整基础模型,以达到与 LoRA 相当甚至更好的性能表现,但参数数量更少。
- 个性化协作微调用于设备上的大型语言模型
在设备上进行自我监督的合作微调大规模语言模型的研究,使用三种不同的信任加权梯度集成方案,并与 FedAvg 和本地微调方法相比,使用少量的数据交换和 LoRA 权重更新,显示出在本地数据分布不均的现实场景中处理异质性和稀缺性方面的有效性。
- 权重复制与低秩适应:视觉 Transformer 的少样本蒸馏
利用少样本的知识蒸馏方法来提取大规模预训练模型的知识,通过复制视觉变换器的权重并采用改进的低秩适应方法,将知识传输到学生模型中,并通过实证实验验证方法的优越性。
- CVPRCAT: 个性化图像生成的对比适配器训练
通过对比适配器训练中的知识保存得分(Knowledge Preservation Score,KPS)以及采用 CAT 损失,我们展示了低成本下个性化图像生成的各种适配器,以及通过对比联适配器训练来提高适配器训练的简单而有效策略。
- 关于 LoRA 的注释
LoRA 是一种高效适应大型语言模型 (LLM) 的首选方法,具有显著的简洁性和有效性,本文提供了对原始 LoRA 论文的补充视角,并为大规模部署 LoRA 提供了一系列的见解,以改善对 LoRA 的理解和应用。
- 决策变压器作为部分可观测连续控制的基础模型
利用预训练的语言模型,探索决策变压器(DT)架构作为一种通用的控制器综合框架,同时展示了 DT 在各种控制任务上的能力,包括对非线性动力系统和部分微分方程进行控制,并具备出色的零样本泛化能力。
- COLING多语句 - T5:可扩展的多语句编码器适用于多语言应用
我们介绍了基于 NLI 的多语言句子嵌入模型 m-ST5,通过扩展现有的单语模型 Sentence T5 以低秩适应(LoRA)技术成功将模型参数规模扩展到 57 亿,并通过实验证实方法优于基于 NLI 的先前方法,尤其是对资源较少或与英语 - LISA: 用于节省内存的大型语言模型微调的逐层重要性采样
通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性,我们发现了一种不同层之间权重归一化的不寻常偏度,利用这一关键观察,我们发现了一种非常简单的训练策略 ——Layerwise Importance - ACLALoRA: 为大型语言模型调整低秩适应
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA - COLING单个线性层生成任务适应性低秩矩阵
一个单线性层产生了任务适应的低秩矩阵,此方法在效果上与 LoRA 相当,但可训练参数更少。
- BiLoRA:一个双层优化框架用于大型预训练模型的过拟合抗性低秩适应
基于双层优化的 BiLoRA 方法在降低过拟合风险的同时,显著优于 LoRA 和其他微调方法,并具有相似数量的可训练参数。
- ICLR隐私保护联邦学习中 LoRA 的改进
在隐私保护联邦学习中,本文提出了一种高效且有效的低秩适应方法 FFA-LoRA,通过固定非零矩阵并仅微调零矩阵,缓解了数据异构性、差分隐私增强噪声放大以及超参数敏感性等挑战,同时将通信成本减半,并在各种联邦学习任务中展现了更一致的性能和更好 - ECCVSuperLoRA: 多层注意力模块参数高效统一适应
提出了一个称为 SuperLoRA 的广义框架,将不同的 LoRA 变体统一并扩展,通过引入分组、折叠、洗牌、投影和张量分解等方法,SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性,在转移学习任务中表现出卓越的性能,尤其在极低