Nov, 2024

白盒语言模型监督微调中的主动隐私审计

TL;DR本研究针对监督微调中的隐私泄露风险开展,特别是微调数据的敏感性和可识别性引发的隐私问题。提出了一种名为Parsing的主动隐私审计框架,通过改进的白盒成员推断攻击来监测微调过程中的隐私风险,提供了有效的工具以支持语言模型的隐私保护。实验结果表明该框架在多个模型和任务中均表现出明显的隐私关切。