关键词benchmarks
搜索结果 - 160
- BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估PDF20 days ago
- MoleculeCLA: 通过计算化学配体 - 靶标结合分析重新思考分子基准PDF21 days ago
- AI 能在 JavaBench 上击败本科生的入门级 Java 作业吗?PDF24 days ago
- BiGGen Bench:一种用于精细评估语言模型的基准PDF25 days ago
- ACLHelloFresh: 在 X 社群笔记和维基百科编辑流中对真实世界人类编辑行为的 LLM 评估PDFa month ago
- 从 LLM 基准混合中获得群体智慧的 MixEvalPDFa month ago
- BELLS: 未来证据高效安全评估的框架PDFa month ago
- 编码和控制长篇视频问答的全球语义PDFa month ago
- 通用上下文学习基准测试PDFa month ago
- MHPP: 探索语言模型在基本代码生成之外的能力和局限性PDFa month ago
- ACL在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集PDF2 months ago
- 教育计划修复基准测试PDF2 months ago
- 比 ReLU 类激活函数显著更好的一类激活函数PDF2 months ago
- PhilHumans:面向个人健康的机器学习基准测试PDF2 months ago
- 基於後門的可解釋 AI 評估方法的高保真度評估基準PDF2 months ago
- ChatGPT 能够进行解释性推理吗?作为归纳推理的基准测试PDF2 months ago
- 4DBInfer:面向关系数据库的图中心预测建模的 4D 性能评估工具箱PDF2 months ago
- 盲目图像超分辨率的联邦学习PDF2 months ago
- 检查 LLM 评估对基准分布假设的鲁棒性PDF2 months ago
- XL$^2$Bench:极长上下文理解与长距离依赖的基准测试PDF3 months ago