关键词benchmarking
搜索结果 - 246
  • Entity6K:用于真实世界实体识别的大型开放域评估数据集
    PDF4 months ago
  • SpokeN-100:一个多语言口语数字分类基准数据集
    PDF4 months ago
  • IndicSTR12:印度场景文字识别数据集
    PDF4 months ago
  • 经典之上?量子机器学习模型基准测试的微妙之道
    PDF4 months ago
  • ICLR剖析样本难度:对数据中心人工智能硬度表征方法的细粒度分析
    PDF4 months ago
  • 私密基准测试以防止污染并提高对 LLM 的比较评估
    PDF4 months ago
  • COLING基于算法问题的 GPT-4 评测:对提示策略的系统评估
    PDF4 months ago
  • 优化器的部分排序
    PDF4 months ago
  • ACLHypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集
    PDF4 months ago
  • 一个评估视觉 - 语言模型中性别偏见的统一框架和数据集
    PDF5 months ago
  • MultiMedEval:用于评估医学视觉 - 语言模型的基准和工具包
    PDF5 months ago
  • 医学图像协调性基准化的定量度量
    PDF5 months ago
  • Vi (E) va LLM!基于生成 AI 可视化的评估和解释概念栈
    PDF5 months ago
  • 可解释性优化启发式算法的基准测试
    PDF5 months ago
  • PPM:用于基准代码生成模型测试的多样化编程问题的自动生成
    PDF5 months ago
  • 图像上采样方法的公平性评估
    PDF5 months ago
  • AgentBoard: 多轮 LLM 代理人的分析评估板
    PDF5 months ago
  • 基于 Mistral 的大型马来西亚语言模型用于增强本地语言理解
    PDF5 months ago
  • 深度神经网络选择性分类基准测试
    PDF5 months ago
  • 表格数据的注意力对比学习 - 数据中心的基准测试
    PDF6 months ago