恢复生成模型的预 Fine-Tuning 权重
在研究中,我们通过秘密地微调公开权重,探索了语言模型安全训练的强壮性,成功降低了有害指令的拒绝率,证明了背离微调是切实可行和有效的。因此,我们主张在发布模型权重时,风险评估应将微调风险评估作为核心部分。
Oct, 2023
我们引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了 DSiRe 方法,用于恢复用于微调模型的图像数量,并发现 LoRA 矩阵的范数和频谱与微调数据集的大小密切相关,我们利用这一发现提出了一个简单而有效的预测算法。通过开发和发布一个包含 25000 个权重快照的新基准 LoRA-WiSE,我们的最佳分类器可以预测微调图像的数量,平均绝对误差为 0.36 个图像,证明了这种攻击的可行性。
Jun, 2024
通过引入一种有效且鲁棒的微调框架来解决在新任务上进行预训练模型微调可能导致不公平结果的问题,该框架中融合了权重重要性中和策略和矩阵因子分解技术,通过实验验证了其有效性。
Mar, 2024
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
提出了一种新的谱感知适应框架,即 SODA,用于大规模预训练生成模型的参数高效适应,通过调整预训练权重的奇异值和基向量来实现参数高效适应正交矩阵,提供了一种谱感知替代现有微调方法的有效选择。
May, 2024
研究表明低秩逼近 Fine-Tuning 在捕捉 Fine-Tuning 数据集从初始预训练数据分布中的转变方面具有不足之处,会产生不可忽视的副作用,包括在针对有毒模型和提供公平模型的情景下意外保留不合理的偏差和有毒行为。此外,对于顺序决策任务,需要进行仔细评估以促进负责任的大型语言模型开发。
May, 2024
能够下载的预训练模型权重的公开发布,使得细调模型可以避免昂贵的预训练费用。本研究认为,可下载模型的越来越易于细调可能会增加风险,主要体现在降低细调的计算成本、扩大参与共享成本的参与者范围、容易被用于恶意目的、难以监管具有潜在危险能力的模型等方面。因此,我们急切需要开发缓解措施。
Dec, 2023
该论文提出了一种针对预训练的 3D 点云模型的鲁棒微调方法,以增强下游微调模型中的特征鲁棒性。通过权重空间集成和线性探测相结合的方法,该方法显著提高了下游微调模型在分布变化情况下的性能,同时在目标分布上保持高性能,以提高特征鲁棒性。将这种鲁棒微调方法应用于主流的 3D 点云预训练模型,并评估模型参数的质量和下游任务性能的降低。实验结果表明,WiSE-FT-LP 方法有效提升了模型的鲁棒性,有效平衡了下游任务性能和模型特征的鲁棒性,而不改变模型结构。
Apr, 2024