关键词human evaluations
搜索结果 - 21
  • 推动文本到图像模型评估中的地理包容性
    PDF2 months ago
  • 探索会议总结的自动评价指标
    PDF3 months ago
  • FEEL: 评估大型语言模型的情感支持能力框架
    PDF3 months ago
  • 通过模型生成的图像满意度的动机背景的视角理解主观性
    PDF4 months ago
  • ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
    PDF5 months ago
  • 大规模语言模型的拆分和再表述
    PDF7 months ago
  • 经过训练的机器翻译度量指标学会适应机器翻译的参考译文
    PDF7 months ago
  • 零样本对话摘要评估与小型大型语言模型
    PDF7 months ago
  • 形式胜于内容:大型语言模型的评估偏见
    PDFa year ago
  • ACLNLP 中无法评估先前人类评估的再现性:信息缺失,作者不响应,实验缺陷
    PDFa year ago
  • 重新审视生物医学领域中自动问题摘要评估
    PDFa year ago
  • COLING使用跟进概率进行开放域对话评估
    PDF2 years ago
  • ACLTSTR: 太短难以代表,通过详细汇总进行简介导向的扩展摘要生成
    PDF2 years ago
  • 人类评估对话的敏感度是个开放性问题:比较不同的方法用于评估对话代理
    PDF2 years ago
  • EMNLP一种插拔式控制文本生成方法
    PDF3 years ago
  • 情感解析用于共情回应生成
    PDF3 years ago
  • 开放式聊天机器人的安全配方
    PDF4 years ago
  • EMNLP基于自适应算术编码的几乎不可察觉的神经语言隐写术
    PDF4 years ago
  • EMNLP朝向可控和个性化评论生成
    PDF5 years ago
  • EMNLPMoEL: 共情听众混合物
    PDF5 years ago
Prev