behavior coercion | BriefGPT

关键词behavior coercion

搜索结果 - 1

迫使语言模型（LLMs）做和透露（几乎）任何事情
广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。
PDF5 months ago