关键词evaluation suite
搜索结果 - 12
  • CharXiv:多模式 LLM 模型中现实图表理解的不足之处的概览
    PDF8 days ago
  • 奇幻版权之兽及其 (不) 生成方法
    PDF14 days ago
  • ACL从零到英雄:冷启动异常检测
    PDFa month ago
  • 使用直接偏好头进行语言模型的推理时间对齐
    PDFa month ago
  • EMNLPAMR 解析远未解决:GrAPES,AMR 解析评估套件
    PDF7 months ago
  • OYXOY:用于现代希腊语的现代自然语言处理测试套件
    PDF10 months ago
  • OpenFlamingo: 训练大规模自回归视觉语言模型的开源框架
    PDFa year ago
  • L-Eval: 长上下文语言模型的标准化评估实施
    PDFa year ago
  • InstructEval: 指令选择方法的系统评估
    PDFa year ago
  • ADATIME:面向时间序列数据领域自适应的基准套件
    PDF2 years ago
  • ICML使用 Melting Pot 进行可扩展的多智能体强化学习评估
    PDF3 years ago
  • ACL仍是个烦人的问题:评估文本表示在词组合成中的表现
    PDF5 years ago
Prev
Next