Dec, 2023

对语言模型激活的敌对攻击的尺度定律

TL;DR用语言模型的激活进行对抗性攻击的研究表明,操纵模型激活的相对较小的子集可以精确控制大量(最多达到 1000 个)随后的标记预测,并发现对输入空间的控制与对输出空间的控制存在一致性,并且攻击模型的激活比攻击标记要强得多,这为对多模式和选定检索模型的攻击提供了新的可能性。