Nov, 2023

张量信任:从在线游戏的可解释提示注入攻击

TL;DR大型语言模型( LLMS ) 在现实世界应用中越来越多,但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集,为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试,并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外,我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。