May, 2024

通过概念推断和数据注入进行复杂数据的类别机器遗忘

TL;DR在当前人工智能时代中,用户可能要求 AI 公司从训练数据集中删除他们的数据以保护隐私。作为模型所有者,重新训练模型将消耗大量计算资源。因此,机器遗忘是一种新兴的技术,允许模型所有者删除请求的训练数据或一个类别,对模型性能影响较小。然而,对于大规模复杂的数据,如图像或文本数据,从模型中删除一个类别会导致性能下降,因为很难确定类别和模型之间的联系。本文中,为了准确定义复杂数据的遗忘类别,我们应用概念的定义来代表遗忘类别的语义信息,而不是图像特征或文本数据的标记。这种新的表示可以切断模型和类别之间的联系,从而完全消除一个类别的影响。为了分析复杂数据概念的影响,我们采用后验概念瓶颈模型和综合梯度来精确识别不同类别之间的概念。接下来,我们利用带有随机和有针对性标签的数据毒化提出了遗忘方法。我们在图像分类模型和大型语言模型上测试了我们的方法,结果一致表明提出的方法可以准确地从模型中擦除目标信息,并且可以在很大程度上保持模型的性能。