通过伪标记成员的微调增强训练数据曝光

Feb, 2024

通过伪标记成员的微调增强训练数据曝光

Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships

Myung Gyo Oh, Hong Eun Ahn, Leo Hyun Park, Taekyoung Kwon

TL;DR通过对神经语言模型进行对抗性微调，以增强其对预训练数据的保留，本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似，我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。

Abstract

neural language models (LMs) are vulnerable to training data extraction attacks due to data memorization. This paper introduces a novel attack scenario wherein an attacker adversarially fine-tunes pre-trained LMs to amplify the exposure of the original training data. This strategy diff

neural language models data extraction attacks adversarial fine-tuning pre-training data pseudo-labels

发现论文，激发创造

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023

SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性

自然语言处理模型在最近几年中经历了显著的提升，其上已建立了许多应用。然而，这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调，这些微调数据往往含有个人或敏感信息，增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性，整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明，某些训练方法能显著降低隐私风险，其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。

Mar, 2024

从微调和量化中提高 LLM 的脆弱性

大型语言模型在各个领域中得到了广泛应用，但是它们也面临不同类型的攻击，如越狱、提示注入和隐私泄露攻击。本研究探讨了下游任务（如改进性调整和量化）对大型语言模型的脆弱性的影响，并展示了使用外部防护措施以减少脆弱性的实用性。

Apr, 2024

通过探索进行 Fine-Tuning 的大型语言模型，转变计算机安全与公众信任

探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞，以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术，从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护措施和伦理准则以应对大型语言模型恶意应用的风险。

Jun, 2024

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

教授语言模型如何钓鱼：从中窃取私人信息

本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击，可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息（PII），例如信用卡号码，攻击成功率高达 10%，有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集，对用户数据的结构仅具有模糊的先验假设。

Mar, 2024

面向自然语言处理的预训练表征的高效主动学习

通过在主动学习循环中使用预训练的大型语言模型的表示，然后在获得所需标记数据后，对这些数据进行微调，从而以较低的计算成本实现与将完全微调的模型相似的性能。

Feb, 2024

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023