揭示隐私漏洞：以推广数据为目标的LLM对齐成员推理攻击

Jul, 2024

揭示隐私漏洞：以推广数据为目标的LLM对齐成员推理攻击

Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment

Qizhang Feng, Siva Rajesh Kasa, Hyokun Yun, Choon Hui Teo, Sravan Babu Bodapati

TL;DR该篇论文研究了使用人类偏好数据对人工智能模型进行调整时所存在的隐私问题，并提出了一种新的基于参考的攻击框架 PREMIA（Preference data MIA），同时提供了实证证据表明，与 PPO 模型相比，DPO 模型更易受到成员推断攻击的威胁。这些发现突显了当前对大型语言模型校准的隐私保护实践中的差距。

Abstract

large language models (LLMs) have seen widespread adoption due to their remarkable natural language capabilities. However, when deploying them in real-world settings, it is important to align LLMs to generate texts according to acceptable human standards. Methods such as →

发现论文，激发创造

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集，并展示出当前LLM能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的1%）和时间（人类所需的2.4%）上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明，当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就LLM隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了LLMs发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。

Nov, 2023

解剖人类和LLM偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如GPT-4-Turbo更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在MT-Bench上高达0.59分（1-10分制），在AlpacaEval 2.0上高达31.94分（0-100分制），突显了这种战略性调整的重要影响。

Feb, 2024

辩证统一：解决LLM的3H与安全威胁的张力

利用人工智能反馈，提出了一种新颖的方案：辩证对齐（Dialectical Alignment）模型，用于调整大语言模型在不同外部证据冲突下的内部状态，以抵御被污染的数据攻击，提高系统的安全性。

Mar, 2024

通过系统消息概括与数千个偏好进行对齐

用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法，通过多方面的数据集和用户指令训练模型，该模型在各项测试中表现优于其他大型语言模型。

May, 2024

不可能的任务：对大规模语言模型越狱的统计视角

本文研究了大规模语言模型(LLMs)在偏好对齐过程中可能出现的越狱现象，指出现有方法未能有效防止有害行为的生成。我们提出了一种新的统计对齐概念E-RLHF，旨在安全响应的可能性上更具优势，并在多个对齐问题的实证研究中优于传统方法，而不增加额外的训练成本。

Aug, 2024

大型语言模型中的隐私保护：当前威胁与解决方案的调查

本研究探讨了大型语言模型（LLMs）在隐私保护方面面临的挑战，特别是在关键领域（如医疗保健）中的风险。提出从数据匿名化到差分隐私的多种解决方案，以在整个学习过程中有效地集成隐私保护机制。这项工作的关键发现是为构建更安全可信的人工智能系统提供了针对隐私保护方法的全面评估与未来发展方向的指导。

Aug, 2024

大规模语言模型成员推断的数量级加速

本研究解决了大规模语言模型（LLMs）在成员推断攻击中的隐私风险，现有方法依赖多次训练计算开销大的影子模型，导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法，利用小型分位回归模型的集成，以有效判定文档是否属于训练集。实验结果显示，该方法在计算预算仅为现有方法6%的情况下，取得了与最先进方法相当或更好的精度，并在多种模型和数据集上展现了强大的有效性。

Sep, 2024