关键词benchmark
搜索结果 - 861
- NTIRE 2024 野外图像恢复模型竞赛PDF4 days ago
- 多类体积放射学影像的基于内容的图像检索:基准研究PDF5 days ago
- RobustMVS: 单域通用深度多视角立体视觉PDF5 days ago
- PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估PDF5 days ago
- SciFIBench:科学图表解读大型多模态模型基准测试PDF6 days ago
- MMAnoVox:自主驾驶中多模态异常检测的基准PDF7 days ago
- EconLogicQA:一个用于评估经济时序推理的大语言模型的问答基准测试PDF7 days ago
- MedConceptsQA -- 开源医学概念问答基准PDF8 days ago
- COLING分支叙述:角色决策点检测PDF8 days ago
- DOLOMITES: 领域特定的长型有条理的任务PDF11 days ago
- FloorSet - 具有现实世界 SoCs 设计约束的 VLSI 电路布局数据集PDF11 days ago
- Poser:通过操作模型内部揭示对齐伪造的 LLMsPDF12 days ago
- 肺健康中的人工智能:在多个 CT 扫描数据集上对检测和诊断模型进行基准测试PDF13 days ago
- NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题PDF13 days ago
- ATG:基于生成式语言模型的自动定理生成基准测试PDF15 days ago
- 电动滑板车实时目标检测性能评估PDF15 days ago
- 超越单一学习:整合多种认知方式对终身学习的重要性PDF16 days ago
- 超越相关性:评估和提升具备观点感知的检索模型PDF16 days ago
- 基于表格数据的联邦学习基准测试:比较基于树模型和神经网络的方法PDF17 days ago
- 指令调优时代的可控文本生成PDF18 days ago
Prev