关键词benchmark
搜索结果 - 861
  • NTIRE 2024 野外图像恢复模型竞赛
    PDF4 days ago
  • 多类体积放射学影像的基于内容的图像检索:基准研究
    PDF5 days ago
  • RobustMVS: 单域通用深度多视角立体视觉
    PDF5 days ago
  • PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估
    PDF5 days ago
  • SciFIBench:科学图表解读大型多模态模型基准测试
    PDF6 days ago
  • MMAnoVox:自主驾驶中多模态异常检测的基准
    PDF7 days ago
  • EconLogicQA:一个用于评估经济时序推理的大语言模型的问答基准测试
    PDF7 days ago
  • MedConceptsQA -- 开源医学概念问答基准
    PDF8 days ago
  • COLING分支叙述:角色决策点检测
    PDF8 days ago
  • DOLOMITES: 领域特定的长型有条理的任务
    PDF11 days ago
  • FloorSet - 具有现实世界 SoCs 设计约束的 VLSI 电路布局数据集
    PDF11 days ago
  • Poser:通过操作模型内部揭示对齐伪造的 LLMs
    PDF12 days ago
  • 肺健康中的人工智能:在多个 CT 扫描数据集上对检测和诊断模型进行基准测试
    PDF13 days ago
  • NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题
    PDF13 days ago
  • ATG:基于生成式语言模型的自动定理生成基准测试
    PDF15 days ago
  • 电动滑板车实时目标检测性能评估
    PDF15 days ago
  • 超越单一学习:整合多种认知方式对终身学习的重要性
    PDF16 days ago
  • 超越相关性:评估和提升具备观点感知的检索模型
    PDF16 days ago
  • 基于表格数据的联邦学习基准测试:比较基于树模型和神经网络的方法
    PDF17 days ago
  • 指令调优时代的可控文本生成
    PDF18 days ago
Prev