关键词evaluation benchmark
搜索结果 - 58
  • BioKGBench:生物医学科学 AI 代理的知识图检测基准
    PDF5 days ago
  • MALSIGHT:迭代二进制恶意软件摘要分析研究
    PDF8 days ago
  • SHIELD:LLM 文本生成中版权合规的评估与防御策略
    PDF16 days ago
  • IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准
    PDF16 days ago
  • VideoVista: 视频理解和推理的通用基准测试
    PDF17 days ago
  • 什么是最好的模型?用于大型语言模型的应用驱动评估
    PDF20 days ago
  • 通用到医疗应用的大型语言模型调查:数据集、方法论和评估
    PDF20 days ago
  • MM常识 T2I 挑战:文本到图像生成模型能否理解常识?
    PDF23 days ago
  • ICLRLean4 中自动形式化的评估基准
    PDFa month ago
  • 生成预训练大语言模型对孟加拉语语法错误的解释程度如何?
    PDFa month ago
  • 遥感图像的组合检索
    PDFa month ago
  • ACLFREB-TQA:用于表格问答的细粒度鲁棒性评估基准
    PDF2 months ago
  • GPT-4V 挑战红队测试:是否能抵御 Uni/Multi-Modal 越狱攻击?
    PDF3 months ago
  • COLING最小人工投入快速开发大型语言模型的高质量指导数据和评估基准:以日语为例的案例研究
    PDF4 months ago
  • DiaHalu: 大型自然语言模型的对话级幻觉评估基准
    PDF4 months ago
  • 大型视觉语言模型的图像推理与描述的认知评估基准
    PDF4 months ago
  • 科学摘要评估的反思:在面向因素的基准上建立可解释指标
    PDF4 months ago
  • BiMediX: 双语医学专家混合模型 LLM
    PDF4 months ago
  • FinBen: 大型语言模型的全面金融基准
    PDF4 months ago
  • TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象
    PDF4 months ago
Prev