关键词unsafe responses
搜索结果 - 4
  • ACLGrounDial: 基于人类规范的安全对话响应生成
    PDF5 months ago
  • ACL基于梯度的语言模型红队测试
    PDF5 months ago
  • SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件
    PDF8 months ago
  • 自动检测神经对话模型的问题
    PDF3 years ago
Prev
Next