BriefGPT.xyz
Ask
alpha
关键词
wildjailbreak
搜索结果 - 1
大规模野外合作:从野外越狱到(对抗性地)更安全的语言模型
引入了 WildTeaming 框架,该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略,从而实现对越狱的系统化探索,揭示了先前工作所没有发现的对于最新的 LLMs 的漏洞,导致比最先进的越狱方法多达 4.6 倍更多样化和成功的对抗攻击
→
PDF
a month ago
Prev
Next