关键词human judgement
搜索结果 - 11
  • WRDScore: 评估自然语言生成模型的新指标
    PDFa month ago
  • 保障 2.0 中的挑战与否定性论证
    PDF2 months ago
  • 从人类评判到预测模型:解析混合代码句子的可接受性
    PDF2 months ago
  • TeTIm-Eval:一个用于比较文本到图像模型的新型策划评估数据集
    PDF2 years ago
  • QAScore -- 一种无监督无参考问题生成评估度量
    PDF2 years ago
  • 重新思考基于人工判断的机器翻译单词质量评估
    PDF2 years ago
  • 自动机器翻译评估指标的全面评估:是否需要进行交付
    PDF3 years ago
  • ACL使用 FRANK 来理解抽象摘要中的事实性:一个事实度量的基准
    PDF3 years ago
  • 毒性检测:上下文是否真的重要?
    PDF4 years ago
  • 通过人工多重参考研究开放式对话系统的评估
    PDF5 years ago
  • 图像特异性
    PDF9 years ago
Prev
Next