关键词benchmarking
搜索结果 - 246
  • 阿塞拜疆语开放基础模型
    PDF4 days ago
  • μ-Bench: 显微镜理解的视觉 - 语言基准
    PDF5 days ago
  • ACLFineSurE: 利用 LLMs 进行细粒度总结评估
    PDF5 days ago
  • 轻量级基于嵌入的推荐系统的全面性能基准测试
    PDF11 days ago
  • PISTOL: LLMs 结构解学的数据集编译流程
    PDF12 days ago
  • NAVSIM:数据驱动的无反应自主车辆模拟与基准测试
    PDF15 days ago
  • CheMFi:多样分子的量子化学特性多级数据集
    PDF16 days ago
  • 朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类
    PDF17 days ago
  • Job-SDF:职业技能需求预测和基准的多粒度数据集
    PDF19 days ago
  • 用于生成可积表达式的 Liouville 生成器
    PDF19 days ago
  • LLM 检测的基准测试:比较两种竞争方法
    PDF19 days ago
  • WildVision:使用人类偏好评估在野外的视觉语言模型
    PDF20 days ago
  • 基准评估光谱图神经网络:对效果和效率的全面研究
    PDF22 days ago
  • 高保真模型提取中超越缓慢标志
    PDF22 days ago
  • SciKnowEval: 评估大规模语言模型的多级科学知识
    PDF23 days ago
  • ECBD: NLP 的证据中心基准设计
    PDF23 days ago
  • 我们在忘却方面取得进展吗?来自首个 NeurIPS 忘却竞赛的发现
    PDF23 days ago
  • MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试
    PDF24 days ago
  • TopoBenchmarkX:拓扑深度学习基准测试框架
    PDFa month ago
  • CLoG: 图像生成模型的持续学习基准测试
    PDFa month ago
Prev