关键词benchmarking
搜索结果 - 246
- 阿塞拜疆语开放基础模型PDF4 days ago
- μ-Bench: 显微镜理解的视觉 - 语言基准PDF5 days ago
- ACLFineSurE: 利用 LLMs 进行细粒度总结评估PDF5 days ago
- 轻量级基于嵌入的推荐系统的全面性能基准测试PDF11 days ago
- PISTOL: LLMs 结构解学的数据集编译流程PDF12 days ago
- NAVSIM:数据驱动的无反应自主车辆模拟与基准测试PDF15 days ago
- CheMFi:多样分子的量子化学特性多级数据集PDF16 days ago
- 朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类PDF17 days ago
- Job-SDF:职业技能需求预测和基准的多粒度数据集PDF19 days ago
- 用于生成可积表达式的 Liouville 生成器PDF19 days ago
- LLM 检测的基准测试:比较两种竞争方法PDF19 days ago
- WildVision:使用人类偏好评估在野外的视觉语言模型PDF20 days ago
- 基准评估光谱图神经网络:对效果和效率的全面研究PDF22 days ago
- 高保真模型提取中超越缓慢标志PDF22 days ago
- SciKnowEval: 评估大规模语言模型的多级科学知识PDF23 days ago
- ECBD: NLP 的证据中心基准设计PDF23 days ago
- 我们在忘却方面取得进展吗?来自首个 NeurIPS 忘却竞赛的发现PDF23 days ago
- MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试PDF24 days ago
- TopoBenchmarkX:拓扑深度学习基准测试框架PDFa month ago
- CLoG: 图像生成模型的持续学习基准测试PDFa month ago
Prev