关键词jailbreaking
搜索结果 - 16
  • 面向 LLM 的破解攻击的理解:表示空间分析
    PDF16 days ago
  • SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
    PDF24 days ago
  • 文本到图像生成 AI 系统的自动越狱
    PDFa month ago
  • GPT-4 使用自述功能成功自我解锁
    PDFa month ago
  • ACLSpeechGuard: 多模态大型语言模型的对抗鲁棒性探索
    PDF2 months ago
  • 学会看但忘记跟随:视觉指令调整使 LLMs 更容易遭受越狱攻击
    PDF2 months ago
  • 您的 “安全” 数据中有什么?:识别破坏安全性的良性数据
    PDF3 months ago
  • Tastle: 自动越狱攻击中的大型语言模型分散技术
    PDF4 months ago
  • CodeChameleon:为大型语言模型破解定制的加密框架
    PDF4 months ago
  • 援足门:通过认知心理学理解大型语言模型破解
    PDF4 months ago
  • LLMs 在实践中可以自我防御破解:一篇展望性论文
    PDF4 months ago
  • LLM 越狱攻击与防御技术 -- 综合研究
    PDF4 months ago
  • 针对越狱攻击的强化预设优化
    PDF5 months ago
  • 大型语言模型上的从弱到强破解
    PDF5 months ago
  • 通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞
    PDF8 months ago
  • 使用少量上下文示例对越狱和防卫对齐的语言模型进行训练
    PDF9 months ago
Prev
Next