关键词evaluation metrics
搜索结果 - 475
  • 移动贝奇:一种用于基于 LLM 的移动代理的评估基准
    PDF3 days ago
  • 多语言环境下的检索增强生成
    PDF3 days ago
  • 自动樱桃挑选者:从语言驱动的高质量生成数据中学习
    PDF6 days ago
  • 可扩展的领域通用抽象命题分段
    PDF6 days ago
  • 从零开始:自动知识图谱补全的三元组预测
    PDF8 days ago
  • X 射线简化:用通俗语言生成和评估放射学报告
    PDF9 days ago
  • 机器反学习无法消除数据投毒攻击
    PDF9 days ago
  • CausalScore: 用于评估开放领域对话系统中回复相关性的自动无参考度量
    PDF9 days ago
  • EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型
    PDF10 days ago
  • 评估大型语言模型在故事结局生成中的指令遵循能力
    PDF10 days ago
  • AudioBench:一个音频大语言模型通用基准测试
    PDF11 days ago
  • 为科学图像集分割死海古卷片段
    PDF13 days ago
  • 朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类
    PDF15 days ago
  • 基于 LVLM 的图像描述中,更多的细节总是引入更多的幻觉吗?
    PDF16 days ago
  • ComperDial: 基于常识和角色的对话数据集与基准
    PDF17 days ago
  • NovoBench: 基于深度学习的蛋白质组学中 De Novo 肽段测序方法的基准测试
    PDF18 days ago
  • 对话者合成的综合分类和分析:肖像生成、驱动机制和编辑的技术
    PDF19 days ago
  • ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力
    PDF20 days ago
  • 降水预测的深度学习:从时间序列预测的角度看调查
    PDFa month ago
  • 图像解释的分类评估指标:构建可靠的可解释性人工智能评估
    PDFa month ago
Prev