关键词harmful responses
搜索结果 - 4
  • 对抗性对比解码:通过对立提示优化提高大型语言模型的安全对齐
    PDF10 days ago
  • 大型语言模型中的机器遗忘
    PDFa month ago
  • 通过话语链安全对齐红队大型语言模型
    PDFa year ago
  • 揭示对话系统中的个人偏见
    PDF3 years ago
Prev
Next