May, 2023

指令作为后门:大型语言模型指令调整的后门漏洞

TL;DR训练指导调谐模型的众包数据集存在安全隐患,攻击者可通过少量恶意指令注入后门来控制模型行为,导致持久性后门并在多个数据集中实现 90%的攻击成功率,同时需要更加强大的防御措施来应对数据污染攻击,并重视指导众包中数据的质量。