May, 2024

空气隔离:保护注重隐私的对话代理

TL;DR大型语言模型基于的对话代理管理敏感用户数据的使用日益增长引发了重大的隐私问题。我们介绍了一种新的威胁模型,其中恶意第三方应用程序通过操纵交互的上下文来欺骗基于语言模型的代理,将与任务无关的私人信息泄漏出来。基于情境完整性的框架,我们引入了AirGapAgent,这是一个具有隐私意识的代理,通过限制代理对特定任务所需的数据的访问,防止意外数据泄露。使用Gemini、GPT和Mistral模型作为代理的大量实验证实了我们的方法在减轻这种形式的上下文劫持并保持核心代理功能方面的有效性。例如,我们展示了对Gemini Ultra代理进行单次查询上下文劫持攻击可以将其保护用户数据的能力从94%降低到45%,而AirGapAgent可以达到97%的保护水平,使相同攻击无效化。