关键词jailbreaking
搜索结果 - 16
- 面向 LLM 的破解攻击的理解:表示空间分析PDF16 days ago
- SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击PDF24 days ago
- 文本到图像生成 AI 系统的自动越狱PDFa month ago
- GPT-4 使用自述功能成功自我解锁PDFa month ago
- ACLSpeechGuard: 多模态大型语言模型的对抗鲁棒性探索PDF2 months ago
- 学会看但忘记跟随:视觉指令调整使 LLMs 更容易遭受越狱攻击PDF2 months ago
- 您的 “安全” 数据中有什么?:识别破坏安全性的良性数据PDF3 months ago
- Tastle: 自动越狱攻击中的大型语言模型分散技术PDF4 months ago
- CodeChameleon:为大型语言模型破解定制的加密框架PDF4 months ago
- 援足门:通过认知心理学理解大型语言模型破解PDF4 months ago
- LLMs 在实践中可以自我防御破解:一篇展望性论文PDF4 months ago
- LLM 越狱攻击与防御技术 -- 综合研究PDF4 months ago
- 针对越狱攻击的强化预设优化PDF5 months ago
- 大型语言模型上的从弱到强破解PDF5 months ago
- 通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞PDF8 months ago
- 使用少量上下文示例对越狱和防卫对齐的语言模型进行训练PDF9 months ago
Prev
Next