关键词human judgments
搜索结果 - 23
  • 错误跨度标注:人工评估机器翻译的平衡方法
    PDF19 days ago
  • 面向主观 NLP 任务的标注者中心主动学习
    PDF2 months ago
  • 大型语言模型中的范围模糊性
    PDF3 months ago
  • 口语对话语句的实用相似性判断集合
    PDF4 months ago
  • 文本生成动作的最佳自动评估指标是什么?
    PDF10 months ago
  • 自动度量文本生成偏好评级中的错误校正
    PDFa year ago
  • 大型语言模型不是公正的评估器
    PDFa year ago
  • 使用 ChatGPT 进行文本风格转移的多维度评估
    PDFa year ago
  • ICLRFLAN-T5 中的语义特征验证
    PDFa year ago
  • 自然语言生成中的自动评估的玻璃天花板
    PDF2 years ago
  • ACL生成和评估语言的双重排行榜
    PDF3 years ago
  • ACL自然语言生成指标在系统水平的统计优势
    PDF3 years ago
  • QuestEval: 基于事实的评估对于摘要很重要
    PDF3 years ago
  • EMNLPKLearn: 从总结数据中推断出背景知识
    PDF4 years ago
  • SummEval: 重评摘要评估
    PDF4 years ago
  • 评估对话系统输出的最佳实验设计
    PDF5 years ago
  • ACUTE-EVAL: 优化问题和多轮比较的对话评估改进
    PDF5 years ago
  • ACL评估图像描述的视觉保真度
    PDF5 years ago
  • 度量学习用于个体公平性
    PDF5 years ago
  • 评价问答生成系统的更优指标
    PDF6 years ago
Prev