BriefGPT.xyz
Ask
alpha
关键词
behavior coercion
搜索结果 - 1
迫使语言模型(LLMs)做和透露(几乎)任何事情
广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标,并对具体例子进行了分类和系统化,如误导、模型控制、服务拒绝或数据提取,并分析了这些攻击的实验结果。
PDF
5 months ago
Prev
Next