Apr, 2024

指令层次结构:训练 LLMs 优先处理特权指令

TL;DR今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响,使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构,明确定义了在不同优先级指令冲突时模型应该如何行为,并提出了一种数据生成方法来展示这种层次指令遵循行为,教导 LLMs 有选择性地忽略低权限指令。我们将这种方法应用于 GPT-3.5 上,展示它显著增加了鲁棒性,甚至对训练期间未见的攻击类型,同时对标准能力的降低影响很小。