关键词jailbreak
搜索结果 - 11
  • 越狱悖论: LLMs 的致命弱点
    PDF16 days ago
  • 未对齐” 不等于 “恶意”: 小心大型语言模型越狱的幻觉
    PDF17 days ago
  • 对中间隐藏状态的介绍解释 LLM 安全性:关于对齐和越狱的工作方式
    PDF25 days ago
  • 重新思考以评估语言模型破解
    PDF3 months ago
  • 图像是对齐的弱点:利用视觉漏洞对跨模态大型语言模型进行越狱
    PDF4 months ago
  • 跳出规则:多轮对话中大型语言模型的安全漏洞
    PDF4 months ago
  • 大型语言模型中的系统消息对越狱是否真的重要?
    PDF4 months ago
  • 使用词替代密码破解专有大型语言模型
    PDF5 months ago
  • 勤奋的鲍勃通过及时对抗调整反击越狱
    PDF5 months ago
  • 通过自对抗攻击和系统提示实施对 GPT-4V 的越狱
    PDF8 months ago
  • 自我欺骗:大型语言模型语义防火墙的逆渗透
    PDFa year ago
Prev
Next