Jun, 2023

基于启发式贪婪的对话式学习模型中的对抗攻击

TL;DR本文提出了一种基于 prompt 的对抗攻击方法,通过设计启发式算法和贪婪算法,在黑匣子场景下成功攻击了手动模板,并在多个分类任务中验证了其有效性和泛化能力。