Jun, 2024

通过私有化联合编辑增强大型语言模型的数据隐私

TL;DR利用私有关联编辑(Private Association Editing,PAE)的方法,本研究针对大型语言模型(Large Language Models,LLMs)的私人数据泄露问题进行了防御,在不重新训练模型的情况下,有效地移除个人可识别信息(Personally Identifiable Information,PII)。通过四个步骤的程序,包括检测存储的 PII、使用 PAE 卡片减少私有数据的记忆、验证对目标数据提取(Targeted Data Extraction,TDE)攻击的韧性以及确保后编辑的 LLMs 的一致性,PAE 在 LLMs 的数据隐私方面显著提升了多项修改的灵活性和效率。实验结果显示 PAE 在减轻私人数据泄露方面的有效性。我们相信 PAE 将成为保护 LLMs 数据隐私的关键工具,鼓励开发更安全的用于现实世界应用的模型。