关键词evaluation dataset
搜索结果 - 20
  • 多阶段逻辑推理能力评估的目标:Multi-LogiEval
    PDF12 days ago
  • 文化协作:AI 辅助的互动式红色对抗测试,应对在低动态范围线性模型中文化多元知识的挑战
    PDF3 months ago
  • 一幅图千言万语,但是否人人听得懂?关于进行图像翻译以便符合文化相关性的研究
    PDF3 months ago
  • Entity6K:用于真实世界实体识别的大型开放域评估数据集
    PDF4 months ago
  • FineMath:面向中文大语言模型的细粒度数学评估基准
    PDF4 months ago
  • 基于机器学习的调用图修剪的有效性:一项实证研究
    PDF5 months ago
  • 大型语言模型中的可信源对齐
    PDF8 months ago
  • 大型语言模型是否能理解真实世界的复杂指令?
    PDF10 months ago
  • DiariST: 带有说话者分离的流式语音译文
    PDF10 months ago
  • SIB-200:一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集
    PDF10 months ago
  • NICE 2023 零 - shot 图像标题挑战
    PDF10 months ago
  • 改变你所期望的 (现在以 3D 呈现)
    PDFa year ago
  • ACLGENTLE: 英文自然语言处理和语言学评估的具有多元体裁的多层次挑战集合
    PDFa year ago
  • (QA)$^2$: 带问题假设的问答系统
    PDF2 years ago
  • 为检测词语插入和删除错误预训练中文 BERT 模型
    PDF2 years ago
  • 语言能力对语法错误修正的质量评估的重要性
    PDF2 years ago
  • 高质量 QA-SRL 注释的受控众包
    PDF5 years ago
  • 提高学术写作效率:从初稿中生成流畅句子
    PDF5 years ago
  • 神经代码搜索评估数据集
    PDF5 years ago
  • GYAFC 数据集:正式语体转换的语料库、基准和度量标准
    PDF6 years ago
Prev
Next