关键词harmful outputs
搜索结果 - 4
  • 单字扰动破坏 LLM 对齐
    PDF4 days ago
  • 提高对齐性和鲁棒性的短路
    PDFa month ago
  • 从零开始进行红队攻防测试语言模型的探索、建立和利用
    PDFa year ago
  • 将红队化的语言模型减少危害:方法、扩展行为与经验教训
    PDF2 years ago
Prev
Next