关键词safety alignment
搜索结果 - 28
- 跨模态安全对齐PDF13 days ago
- PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集PDF14 days ago
- 模型合并与安全对齐:一枚坏模型败坏一群模型PDF14 days ago
- 在大型语言模型中寻找安全神经元PDF14 days ago
- ChatBug:由聊天模板引起的对齐 LLM 的常见漏洞PDF17 days ago
- 大型语言模型联邦指导调优中涌现的安全攻击与防御PDF19 days ago
- 安全对齐不应仅限于几个标记PDF24 days ago
- 对中间隐藏状态的介绍解释 LLM 安全性:关于对齐和越狱的工作方式PDF25 days ago
- OR-Bench:大型语言模型的拒绝过度基准PDFa month ago
- 大规模语言模型的惰性安全对齐防止有害微调PDFa month ago
- 在大型语言模型的优化过程中测量风险:导航安全景观PDFa month ago
- 无二恶:揭示微调攻击的不同机制PDFa month ago
- 视觉语言模型的安全对齐PDFa month ago
- WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱PDFa month ago
- 大规模语言模型的全面高效后编程安全对齐PDFa month ago
- AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型,用于破解开放和关闭的 LLMPDF3 months ago
- DrAttack: 强大的 LLM 越狱程序的提示分解与重构PDF4 months ago
- 打破突破:通过自我完善为 LM 防御越狱攻击重新定义PDF4 months ago
- 模拟非对齐:大规模语言模型的安全对齐可能适得其反!PDF4 months ago
- 几乎零成本的安全微调:视觉大型语言模型的基准PDF5 months ago
Prev