个人属性推断的合成数据集
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集,并展示出当前 LLM 能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的 1%)和时间(人类所需的 2.4%)上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明,当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就 LLM 隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
我们提出了一种新颖的以人设为驱动的数据合成方法,利用大型语言模型中的各种观点来创建多样化的合成数据。为了在规模上充分利用这种方法,我们引入了 Persona Hub—— 一个从 Web 数据自动筛选得到的 10 亿多样化的人设集合。这 10 亿个人设(相当于世界总人口的 13%),作为传播世界知识的分布式载体,可以利用 LLM 中所囊括的几乎每个观点,从而促进在各种场景中大规模创建多样化的合成数据。通过展示 Persona Hub 在合成高质量的数学和逻辑推理问题,指令(即用户提示),知识丰富的文本,游戏 NPC 和工具(函数)的使用案例,我们证明了以人设为驱动的数据合成是多功能、可扩展、灵活且易于使用的,有潜力推动合成数据创建和实际应用中的范式转变,可能对 LLM 的研究和发展产生深远影响。
Jun, 2024
近期在隐私研究中,大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时,现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题,即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题:首先,我们提出了一个新的环境,在对抗性大型语言模型推理的情况下评估匿名化性能,从而在纠正以前的指标缺陷的同时,实现对匿名化性能的自然度量。然后,我们提出了基于大型语言模型的对抗性匿名化框架,利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中,我们展示了在真实世界和合成在线文本中,对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。
Feb, 2024
该研究通过使用生动事例来展示黑盒大型语言模型中的偏见存在和调控方法,探索了合成人设在人机交互研究中的益处、不足和伦理考虑,强调在利用这些模型进行合成人设创建前的全面测试的必要性。
May, 2024
通过研究多模式视觉 - 语言模型(VLMs)的影响力,我们发现这些模型能够从在线发布的图像中推理出个人属性,其中 7 个最先进模型的准确性高达 77.6%,这意味着未来的模型可能被用作更强大的对手,需要开发适当的防御机制。
Apr, 2024
大型语言模型(LLMs)作为数据增强系统在人机交互研究中可用于创建合成人物,以解决黑盒特性和幻觉倾向带来的挑战,并提出了发展鲁棒性认知和记忆框架以指导 LLM 响应的构想。初步探索表明,数据丰富、情景记忆和自我反思技术可以提高合成人物的可靠性,为人机交互研究开辟新途径。
Apr, 2024
通过使用大型语言模型生成合成数据,研究了其在帮助执行与在线赞助内容披露相关的法律要求方面的潜力。通过评估生成的合成标题的真实性和对未公开广告的识别训练效果,发现真实性和实用性目标之间可能存在冲突,并且即使合成帖子在个体上看起来逼真,它们在整体上缺乏多样性、主题连贯性和真实的用户互动模式。
Mar, 2024
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
通过建立 Generator-Critic 架构,使用 LLM 生成会话,借助 Synthetic-Persona-Chat 评估了高质量对话数据集对 NLP 模型的影响。
Dec, 2023