Feb, 2024

使用投影梯度下降攻击大规模语言模型

TL;DR通过控制连续放松引入的误差,我们改进了投影梯度下降(PGD)对连续放松输入提示的攻击方法,实现了与现有离散优化相同的毁灭性攻击结果,PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。