Jul, 2024

揭示隐私漏洞:以推广数据为目标的LLM对齐成员推理攻击

TL;DR该篇论文研究了使用人类偏好数据对人工智能模型进行调整时所存在的隐私问题,并提出了一种新的基于参考的攻击框架 PREMIA(Preference data MIA),同时提供了实证证据表明,与 PPO 模型相比,DPO 模型更易受到成员推断攻击的威胁。这些发现突显了当前对大型语言模型校准的隐私保护实践中的差距。