关键词benchmarks
搜索结果 - 160
  • BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估
    PDF20 days ago
  • MoleculeCLA: 通过计算化学配体 - 靶标结合分析重新思考分子基准
    PDF21 days ago
  • AI 能在 JavaBench 上击败本科生的入门级 Java 作业吗?
    PDF24 days ago
  • BiGGen Bench:一种用于精细评估语言模型的基准
    PDF25 days ago
  • ACLHelloFresh: 在 X 社群笔记和维基百科编辑流中对真实世界人类编辑行为的 LLM 评估
    PDFa month ago
  • 从 LLM 基准混合中获得群体智慧的 MixEval
    PDFa month ago
  • BELLS: 未来证据高效安全评估的框架
    PDFa month ago
  • 编码和控制长篇视频问答的全球语义
    PDFa month ago
  • 通用上下文学习基准测试
    PDFa month ago
  • MHPP: 探索语言模型在基本代码生成之外的能力和局限性
    PDFa month ago
  • ACL在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集
    PDF2 months ago
  • 教育计划修复基准测试
    PDF2 months ago
  • 比 ReLU 类激活函数显著更好的一类激活函数
    PDF2 months ago
  • PhilHumans:面向个人健康的机器学习基准测试
    PDF2 months ago
  • 基於後門的可解釋 AI 評估方法的高保真度評估基準
    PDF2 months ago
  • ChatGPT 能够进行解释性推理吗?作为归纳推理的基准测试
    PDF2 months ago
  • 4DBInfer:面向关系数据库的图中心预测建模的 4D 性能评估工具箱
    PDF2 months ago
  • 盲目图像超分辨率的联邦学习
    PDF2 months ago
  • 检查 LLM 评估对基准分布假设的鲁棒性
    PDF2 months ago
  • XL$^2$Bench:极长上下文理解与长距离依赖的基准测试
    PDF3 months ago