关键词evaluation metrics
搜索结果 - 471
  • 从零开始:自动知识图谱补全的三元组预测
    PDF3 days ago
  • X 射线简化:用通俗语言生成和评估放射学报告
    PDF4 days ago
  • 机器反学习无法消除数据投毒攻击
    PDF4 days ago
  • CausalScore: 用于评估开放领域对话系统中回复相关性的自动无参考度量
    PDF4 days ago
  • EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型
    PDF5 days ago
  • 评估大型语言模型在故事结局生成中的指令遵循能力
    PDF5 days ago
  • AudioBench:一个音频大语言模型通用基准测试
    PDF6 days ago
  • 为科学图像集分割死海古卷片段
    PDF8 days ago
  • 朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类
    PDF10 days ago
  • 基于 LVLM 的图像描述中,更多的细节总是引入更多的幻觉吗?
    PDF11 days ago
  • ComperDial: 基于常识和角色的对话数据集与基准
    PDF12 days ago
  • NovoBench: 基于深度学习的蛋白质组学中 De Novo 肽段测序方法的基准测试
    PDF13 days ago
  • 对话者合成的综合分类和分析:肖像生成、驱动机制和编辑的技术
    PDF14 days ago
  • ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力
    PDF15 days ago
  • 降水预测的深度学习:从时间序列预测的角度看调查
    PDF22 days ago
  • 图像解释的分类评估指标:构建可靠的可解释性人工智能评估
    PDF22 days ago
  • ACE 指标:准确天气预报的平流和对流评估
    PDF22 days ago
  • 迟做胜过不做:推荐编辑的制定和基准评估
    PDF23 days ago
  • GenAI Arena:生成模型的开放评估平台
    PDF23 days ago
  • 评估生成模型中的世界模型
    PDF23 days ago
Prev