Apr, 2024

AdvPrompter: LLMs的快速自适应敌对提示

TL;DR通过使用AdvPrompter方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快800倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。