关键词safety alignment
搜索结果 - 28
  • 跨模态安全对齐
    PDF13 days ago
  • PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集
    PDF14 days ago
  • 模型合并与安全对齐:一枚坏模型败坏一群模型
    PDF14 days ago
  • 在大型语言模型中寻找安全神经元
    PDF14 days ago
  • ChatBug:由聊天模板引起的对齐 LLM 的常见漏洞
    PDF17 days ago
  • 大型语言模型联邦指导调优中涌现的安全攻击与防御
    PDF19 days ago
  • 安全对齐不应仅限于几个标记
    PDF24 days ago
  • 对中间隐藏状态的介绍解释 LLM 安全性:关于对齐和越狱的工作方式
    PDF25 days ago
  • OR-Bench:大型语言模型的拒绝过度基准
    PDFa month ago
  • 大规模语言模型的惰性安全对齐防止有害微调
    PDFa month ago
  • 在大型语言模型的优化过程中测量风险:导航安全景观
    PDFa month ago
  • 无二恶:揭示微调攻击的不同机制
    PDFa month ago
  • 视觉语言模型的安全对齐
    PDFa month ago
  • WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
    PDFa month ago
  • 大规模语言模型的全面高效后编程安全对齐
    PDFa month ago
  • AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型,用于破解开放和关闭的 LLM
    PDF3 months ago
  • DrAttack: 强大的 LLM 越狱程序的提示分解与重构
    PDF4 months ago
  • 打破突破:通过自我完善为 LM 防御越狱攻击重新定义
    PDF4 months ago
  • 模拟非对齐:大规模语言模型的安全对齐可能适得其反!
    PDF4 months ago
  • 几乎零成本的安全微调:视觉大型语言模型的基准
    PDF5 months ago
Prev