Feb, 2024

迫使语言模型(LLMs)做和透露(几乎)任何事情

TL;DR广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标,并对具体例子进行了分类和系统化,如误导、模型控制、服务拒绝或数据提取,并分析了这些攻击的实验结果。