BriefGPT.xyz
Ask
alpha
关键词
adversarial jailbreaks
搜索结果 - 3
WildGuard: 一站式开源安全风险、越狱及拒绝率审核工具
WildGuard 是一个开放、轻量级的 LLM 安全审核工具,可以识别用户提示的恶意意图、检测模型响应的安全风险以及确定模型的拒绝率。通过在广泛的风险类别上提供精确性和广覆盖性,WildGuard 满足了对 LLM 交互的自动安全审核和评
→
PDF
10 days ago
DeepInception:催眠大型语言模型成为破解者
LLMs 容易受到破解攻击,本研究提出了一种 DeepInception 方法来解除 LLMs 在使用控制方面的限制,揭示了它们的关键弱点,需加强安全性的防御。
PDF
8 months ago
二十次查询中破解黑盒大型语言模型
大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法,用于生成黑盒访问的语义越狱,以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击
→
PDF
9 months ago
Prev
Next