关键词direct assessment
搜索结果 - 4
  • PARIKSHA:多语言和跨文化数据上人类 LLM 评估者一致性的大规模调查
    PDF15 days ago
  • Prometheus 2:一个专门用于评估其他语言模型的开源语言模型
    PDF2 months ago
  • 人类评估机器翻译中的超越力量
    PDF2 years ago
  • ACL有界支持的高效在线标量注释
    PDF6 years ago
Prev
Next