关键词evaluation bias
搜索结果 - 3
  • CIF-Bench:一个用于评估大型语言模型通用性的中文指令遵循基准
    PDF4 months ago
  • 形式胜于内容:大型语言模型的评估偏见
    PDFa year ago
  • 大型语言模型不是公正的评估器
    PDFa year ago
Prev
Next