关键词evaluation benchmark
搜索结果 - 59
  • TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象
    PDF5 months ago
  • MRKE: 基于知识编辑的 LLMs 的多跳推理评估
    PDF5 months ago
  • MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习
    PDF5 months ago
  • CPSDBench:一个用于中国公安领域的大型语言模型评估基准和基线
    PDF5 months ago
  • AI 代码生成器与安全:友还是敌?
    PDF5 months ago
  • NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难
    PDF5 months ago
  • 通过遮罩扩散实现的互动视频生成
    PDF7 months ago
  • VBench: 视频生成模型综合基准套件
    PDF7 months ago
  • 大型语言模型的指令跟随评估
    PDF8 months ago
  • 对话评估工作台:将 LLMs 作为类人对话系统进行评估
    PDF8 months ago
  • Davidsonian 场景图:提升文本图像生成的细粒度评估可靠性
    PDF8 months ago
  • 大型语言模型能否理解古代汉语?对 ACLUE 进行初步测试
    PDF9 months ago
  • 基于聊天式大型语言模型的上下文干扰
    PDF9 months ago
  • Safurai 001:面向代码 LLM 评估的新定性方法
    PDF10 months ago
  • SciEval: 一个用于科学研究的多级大型语言模型评估基准
    PDF10 months ago
  • MM-Vet:评估大型多模态集成模型的能力
    PDFa year ago
  • 面向放射学的通用基础模型
    PDFa year ago
  • Disco-Bench: 一种考虑语篇的语言模型评估基准
    PDFa year ago
  • MME: 多模态大语言模型综合评估基准
    PDFa year ago
  • ACL通过语义适当应用词汇限制实现准确翻译
    PDFa year ago