教授 语言模型如何钓鱼:从中窃取私人信息
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 PII)。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取,给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论,并针对这些问题制定相应的政策。
Jul, 2023
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
本文分析了预训练语言模型(PLMs)是否容易泄漏个人信息,并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱,因此攻击者提取特定个人信息的风险较低,希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险,并为使 PLMs 更加安全带来新的见解。
May, 2022
本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾,由此提出了一种通过查询语言模型进行训练数据提取的攻击方法,并以 GPT-2 为例证,能够成功地提取训练数据中的个人信息、代码等敏感信息,这也提示着训练数据的隐私和安全问题,需要进一步的技术防范措施。
Dec, 2020
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集,并展示出当前 LLM 能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的 1%)和时间(人类所需的 2.4%)上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明,当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就 LLM 隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
通过对大规模语言模型在网络钓鱼领域的应用研究,发现现有的大规模语言模型对于网络罪犯在网络钓鱼攻击中的情报收集和信息生成阶段提高了效率,在此基础上,通过 600 个英国议员的案例研究发现应用于网络钓鱼的语言模型不仅效果逼真,且花费非常低;在此基础上,提出了两种解决方案,即应用程序接口等结构化访问方案和基于大规模语言模型的防御系统,强调了治理干预的必要性。
May, 2023
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模型的模型进行攻击。
Apr, 2024
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
Feb, 2024
本研究论文介绍了一种优化的、经过微调的基于 Transformer 的 DistilBERT 模型,用于检测钓鱼邮件。通过实验,我们发现我们的模型能够有效地实现高准确性,并使用可解释的 AI 技术来解释我们的模型在钓鱼邮件的文本分类中进行预测的方式。
Feb, 2024
本研究对开源大型语言模型的隐私攻击进行了系统研究,提出了威胁预训练和微调模型的成员推断攻击方法,并展示了近乎完美的攻击效果,强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。
Feb, 2024