关键词safety alignment
搜索结果 - 28
- 自然语言处理中的安全对齐:以上下文攻击为例的弱对齐摘要PDF7 months ago
- 后门激活攻击:使用激活引导实施对大型语言模型的攻击以达到安全对齐PDF8 months ago
- AutoDAN: 大型语言模型的自动可解释的对抗攻击PDF8 months ago
- 对大规模语言模型的漏洞调查:对抗性攻击的揭示PDF9 months ago
- 微调对齐语言模型牺牲了安全性,即使用户并无此意!PDF9 months ago
- 通过话语链安全对齐红队大型语言模型PDFa year ago
- GPT-4 太聪明了,不安全:通过密码与 LLMs 进行隐秘聊天PDFa year ago
- 改善 LLM 的安全对齐:基于人类偏好数据的探索PDFa year ago
Next