可下载基础模型微调不断增加的风险
预训练机器学习模型存在隐私后门的风险,攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型(包括 transformers)构建隐私后门,进而成功重构个体微调样本。此外,我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此,如果模型不受信任,使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说,我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。
Mar, 2024
通过引入一种有效且鲁棒的微调框架来解决在新任务上进行预训练模型微调可能导致不公平结果的问题,该框架中融合了权重重要性中和策略和矩阵因子分解技术,通过实验验证了其有效性。
Mar, 2024
通过使用少量低秩(LoRA)微调模型,我们提出了一种名为 Spectral DeTuning 的方法,能够恢复出预微调模型的权重,利用这一新的漏洞攻击大规模模型。
Feb, 2024
利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而,我们揭示了一种新的漏洞:隐私后门攻击,通过该攻击,在微调受后门影响的模型时,训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性,并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题,并呼吁重新评估使用开源预训练模型的安全协议。
Apr, 2024
在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能,我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险,并提出了一种新的缓解策略,该策略在维持相似任务性能的同时,更有效地重新建立安全对齐。
Jun, 2024
通过研究和理解人类所需的大型语言模型,提供从多个不同领域获取专业知识的教程,为研究和人类理解提供帮助。然而,一些已公开发布权重的模型在引入后的几天内经过调整以去除保护措施,我们调查了持续权重扩散是否有助于未来的恶意动作引发大规模伤亡,并在一个黑客马拉松中组织了此实验。实验中,我们指示参与者通过在 “Base” Llama-2-70B 模型和我们调整以去除保护措施的 “Spicy” 版本的平行实例中输入明显恶意的提示来发现如何获取和释放再生的 1918 年大流行性流感病毒。基准模型通常会拒绝恶意提示,而 Spicy 模型则向某些参与者提供几乎所有获取病毒所需的关键信息。未来的模型将更加强大。我们的结果表明,无论基础模型有多么强大的保护措施,发布其权重都将引发获取大流行病能力和其他生物武器所需的知识扩散。
Oct, 2023
该研究提出了一种名为「任务屏蔽」的新的训练范式,使用元学习和对抗学习的技术训练出一种自毁机制的基础模型来预防对有害任务的适应,降低其潜在风险。
Nov, 2022
当前基础模型训练的情况表明,公共领域数据已接近枯竭,因此需要在多个专门化和高质量的私有领域数据源之间加强合作。为了解决本地训练模型而不共享私有数据所带来的质量控制问题,我们提出了一个针对基础模型的联邦微调的数据质量控制流程。该流程通过计算反映训练数据质量的分数,并确定一个统一标准的全局阈值,旨在提高整体性能。我们的实验证明,所提出的质量控制流程有助于模型训练的效果和可靠性,从而提高性能。
Mar, 2024
本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法,通过对一小部分参数进行本地化修改,并引入重要性评分机制来仅更新最关键的权重,在多样的持续学习任务中得到了全面评估,表明其能够提高现有的持续学习方法并减少已训练知识的损失。
Aug, 2023