BriefGPT.xyz
Ask
alpha
关键词
wordgame attack
搜索结果 - 1
WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
通过同时在查询和响应中进行模糊处理,我们提出了 WordGame 攻击,用于越过当前领先的专有和开源大型语言模型,包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施,从而破坏其对安全对齐的保护。
PDF
a month ago
Prev
Next