Feb, 2024
使用投影梯度下降攻击大规模语言模型
Attacking Large Language Models with Projected Gradient Descent
Simon Geisler, Tom Wollschläger, M. H. I. Abdalla, Johannes Gasteiger, Stephan Günnemann
TL;DR通过控制连续放松引入的误差,我们改进了投影梯度下降(PGD)对连续放松输入提示的攻击方法,实现了与现有离散优化相同的毁灭性攻击结果,PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。