Jun, 2024

针对花生的模型:在无训练访问的情况下劫持机器学习模型是可行的

TL;DR我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML,通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时,我们还探讨了不同的方法来缓解这种风险,其中包括一种名为 meta-unlearning 的新方法,用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务,并针对这种攻击提出了一种基于压缩的对抗措施。