Oct, 2023

语言模型如何受指导以保护个人信息?

TL;DR大规模多模式语言模型已在许多应用中证明具有变革性。然而,这些模型已被证明会记忆和泄漏预训练数据,引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准,用于评估在模拟场景中指示模型保护特定类别个人信息时,此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术,在很大程度上提高了隐私。通过一系列红队实验,我们发现对手可以通过简单的越狱方法绕过这些保护,使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。