关键词evaluation benchmarks
搜索结果 - 31
  • LongIns: 一个对 LLMs 具有挑战性的基于长文本上下文的考试
    PDF7 days ago
  • 纵观文本和图像生成的整体评估
    PDF12 days ago
  • Nemotron-4 340B 技术报告
    PDF15 days ago
  • 测评基准中方差的量化
    PDF18 days ago
  • Suvach -- 生成的印地语 QA 基准
    PDF2 months ago
  • LiveCodeBench:大规模语言模型对代码进行全面无污染评估
    PDF4 months ago
  • InfiCoder-Eval:对代码大型语言模型的问题回答能力进行系统评估
    PDF4 months ago
  • F-Eval: 使用精细评估方法评估基本能力
    PDF5 months ago
  • Airavata: 引入印度语指令调整的 LLM
    PDF5 months ago
  • 评估语言模型代理的方法与谈判
    PDF6 months ago
  • 当下现状?对多指令语言模型评估的呼吁
    PDF6 months ago
  • 现代大语言模型中数据污染问题研究
    PDF8 months ago
  • 组合优化问题中预测 - 优化范式的反思与基准测试
    PDF8 months ago
  • EMNLP别忽视语法性别:针对印度 - 英语机器翻译的偏见评估
    PDF8 months ago
  • BizBench:商业和金融的定量推理基准
    PDF8 months ago
  • 不要让您的 LLM 成为一个评估基准作弊者
    PDF8 months ago
  • 什么是好的视觉指导?为视觉指导调整综合复杂视觉推理指导方法
    PDF8 months ago
  • LLM-Deliberation:用互动多智能体协商游戏评估 LLMs
    PDF9 months ago
  • AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查
    PDF10 months ago
  • 不是所有指标都有罪:利用 LLM 改进 NLG 评估的修辞转换技术
    PDFa year ago
Prev