关键词evaluation
搜索结果 - 731
  • 链接预测中的数值文字:模型和数据集的关键审查
    PDF2 days ago
  • AutoRG-Brain: 脑 MRI 的基于语境的报告生成
    PDF4 days ago
  • 半监督基于对比学习框架的参考引导素描提取
    PDF8 days ago
  • 狼人竞技场:社交推理学的语言模型评估案例研究
    PDF9 days ago
  • LLMs 作为函数逼近器:术语、分类和评估问题
    PDF9 days ago
  • TTSDS -- 文本至语音分布评分
    PDF10 days ago
  • 公平感知图学习基准
    PDF11 days ago
  • AI 剧院的奥斯卡:关于角色扮演与语言模型的调查
    PDF11 days ago
  • DOCBENCH:一种用于评估基于 LLM 的文档阅读系统的基准
    PDF12 days ago
  • PredBench: 多学科时空预测性能评估
    PDF16 days ago
  • AutoBencher: 为语言模型创建突出、新颖、困难的数据集
    PDF16 days ago
  • 超越指令跟随:评估大型语言模型的规则跟随能力
    PDF16 days ago
  • 超越基准测试:大型语言模型评估和评估的新范式
    PDF17 days ago
  • 大型语言模型下的阿拉伯语自动故事生成
    PDF17 days ago
  • 测试任务训练对评估和发现的干扰
    PDF17 days ago
  • ACLLLMBox:大规模语言模型的综合库
    PDF19 days ago
  • 评估大型语言模型的系统调查与批判性综述:挑战、局限性与建议
    PDF23 days ago
  • 多约束复杂指令跟踪的基准测试
    PDF23 days ago
  • 量化如何影响多语言 LLMs?
    PDF24 days ago
  • 星象馆:将文字转换为结构化规划语言的严格基准
    PDF24 days ago
Prev