防止对话表征泄露说话人的个人隐私：你不知道我的最喜欢的颜色

ACLApr, 2022

防止对话表征泄露说话人的个人隐私：你不知道我的最喜欢的颜色

You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas

Haoran Li, Yangqiu Song, Lixin Fan

TL;DR本研究旨在探究基于语言模型训练的社交聊天机器人中隐藏状态的隐私泄露问题，并提出了有效的防御目标以保护用户隐私。通过大量实验验证，我们的防御目标可以将攻击准确率从 37.6% 降低到 0.5%。

Abstract

social chatbots, also known as chit-chat chatbots, evolve rapidly with large pretrained language models. Despite the huge progress, privacy concerns have arisen recently: training data of large language models ca

social chatbots privacy concerns hidden states neural network defense objectives

发现论文，激发创造

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

语言模型如何受指导以保护个人信息？

大规模多模式语言模型已在许多应用中证明具有变革性。然而，这些模型已被证明会记忆和泄漏预训练数据，引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准，用于评估在模拟场景中指示模型保护特定类别个人信息时，此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术，在很大程度上提高了隐私。通过一系列红队实验，我们发现对手可以通过简单的越狱方法绕过这些保护，使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。

Oct, 2023

语言模型维护隐私的含义是什么？

本文讨论保护自然语言隐私的技术是否足够广泛，提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护，因此应基于明确为公共使用的文本数据对语言模型进行训练。

Feb, 2022

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集，并展示出当前 LLM 能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的 1%）和时间（人类所需的 2.4%）上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明，当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就 LLM 隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

如约而至的聊天：学习操作黑盒神经对话模型

本文旨在探索通过学习如何构造输入句子，从而使黑盒神经会话模型生成所期望的输出，并提出了一个基于强化学习的模型，通过在经典模型上的实验验证了该方法的有效性，从而揭示了神经会话模型被操纵的潜力，启发和开展神经对话模型的防御策略。

May, 2020

说我想说的话：走向神经对话模型的黑暗面

本研究利用强化学习算法构建了一个逆对话生成器，能够有效发现可以操纵神经对话模型输出的输入方法，并提出了该模型的安全性问题。

Sep, 2019

基于人设的对话型人工智能：现状与挑战

研究旨在探索如何在会话系统中加入角色信息以提高响应生成的质量，并发现当前存在不足和挑战和未来的研究方向。

Dec, 2022

通过相互人设感知实现的对话生成

本文提出了基于 P^2 框架的机器人 P^2 Bot，该框架旨在显式地建立对话者间的理解模型。实验结果表明该框架在大型公共数据集 Persona-Chat 上取得了显著效果提升。

Apr, 2020

语言建模中公平与隐私之间的权衡

本研究探讨在训练文本生成模型时如何同时兼顾隐私保护和去除社交偏见的问题，经实验证明，保护隐私的同时也会使分类任务中的偏见加剧，为了在双方兼顾的情况下提高模型的效用，在损失一些隐私保护的基础上，通过去偏增强模型可以达到最优化。

May, 2023

通过角色扩展来提高对话中的人格一致性

该论文提出了一种新的检索到预测范例来解决个性化聊天机器人中 OOP 问题，并通过采用实际人物进行后验转换来进一步缓解训练和推理之间的差距。并通过 IT-ConvAI2 和 ConvAI2 的广泛实验表明，我们提出的模型在自动指标和人类评估方面都取得了可观的改进。

Aug, 2022