可下载基础模型微调不断增加的风险

Dec, 2023

可下载基础模型微调不断增加的风险

Hazards from Increasingly Accessible Fine-Tuning of Downloadable Foundation Models

Alan Chan, Ben Bucknall, Herbie Bradley, David Krueger

TL;DR能够下载的预训练模型权重的公开发布，使得细调模型可以避免昂贵的预训练费用。本研究认为，可下载模型的越来越易于细调可能会增加风险，主要体现在降低细调的计算成本、扩大参与共享成本的参与者范围、容易被用于恶意目的、难以监管具有潜在危险能力的模型等方面。因此，我们急切需要开发缓解措施。

Abstract

Public release of the weights of pretrained foundation models, otherwise known as downloadable access \citep{solaiman_gradient_2023}, enables fine-tuning without the prohibitive expense of pretraining. Our work argues that increasingly accessible →

pretrained models fine-tuning accessibility hazards mitigations

发现论文，激发创造

隐私后门：通过已被污染的预训练模型窃取数据

预训练机器学习模型存在隐私后门的风险，攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型（包括 transformers）构建隐私后门，进而成功重构个体微调样本。此外，我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此，如果模型不受信任，使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说，我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。

Mar, 2024

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

在微调预训练模型中消除偏见以提升公平性和效率

通过引入一种有效且鲁棒的微调框架来解决在新任务上进行预训练模型微调可能导致不公平结果的问题，该框架中融合了权重重要性中和策略和矩阵因子分解技术，通过实验验证了其有效性。

Mar, 2024

恢复生成模型的预 Fine-Tuning 权重

通过使用少量低秩（LoRA）微调模型，我们提出了一种名为 Spectral DeTuning 的方法，能够恢复出预微调模型的权重，利用这一新的漏洞攻击大规模模型。

Feb, 2024

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

模仿用户数据：关于减轻封闭式大型语言模型的微调风险

在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能，我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险，并提出了一种新的缓解策略，该策略在维持相似任务性能的同时，更有效地重新建立安全对齐。

Jun, 2024

释放大型语言模型的权重是否能提供广泛访问流行性病原体？

通过研究和理解人类所需的大型语言模型，提供从多个不同领域获取专业知识的教程，为研究和人类理解提供帮助。然而，一些已公开发布权重的模型在引入后的几天内经过调整以去除保护措施，我们调查了持续权重扩散是否有助于未来的恶意动作引发大规模伤亡，并在一个黑客马拉松中组织了此实验。实验中，我们指示参与者通过在 “Base” Llama-2-70B 模型和我们调整以去除保护措施的 “Spicy” 版本的平行实例中输入明显恶意的提示来发现如何获取和释放再生的 1918 年大流行性流感病毒。基准模型通常会拒绝恶意提示，而 Spicy 模型则向某些参与者提供几乎所有获取病毒所需的关键信息。未来的模型将更加强大。我们的结果表明，无论基础模型有多么强大的保护措施，发布其权重都将引发获取大流行病能力和其他生物武器所需的知识扩散。

Oct, 2023

自毁模型：增加基础模型有害双重用途的成本

该研究提出了一种名为「任务屏蔽」的新的训练范式，使用元学习和对抗学习的技术训练出一种自毁机制的基础模型来预防对有害任务的适应，降低其潜在风险。

Nov, 2022

增强基础模型联邦微调中的数据质量

当前基础模型训练的情况表明，公共领域数据已接近枯竭，因此需要在多个专门化和高质量的私有领域数据源之间加强合作。为了解决本地训练模型而不共享私有数据所带来的质量控制问题，我们提出了一个针对基础模型的联邦微调的数据质量控制流程。该流程通过计算反映训练数据质量的分数，并确定一个统一标准的全局阈值，旨在提高整体性能。我们的实验证明，所提出的质量控制流程有助于模型训练的效果和可靠性，从而提高性能。

Mar, 2024

通过选择性参数微调克服通用知识丢失

本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法，通过对一小部分参数进行本地化修改，并引入重要性评分机制来仅更新最关键的权重，在多样的持续学习任务中得到了全面评估，表明其能够提高现有的持续学习方法并减少已训练知识的损失。

Aug, 2023