关键词benchmark
搜索结果 - 929
  • MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准
    PDF3 days ago
  • MMScan:多模态 3D 场景数据集与分层语义标注
    PDF3 days ago
  • MuirBench: 强大多图像理解综合基准测试
    PDF3 days ago
  • 一项全面的图池化基准测试:效果、鲁棒性和泛化性
    PDF3 days ago
  • GuardAgent: 通过知识驱动的推理由防护手段保护 LLM Agents
    PDF3 days ago
  • CS-Bench: 大型语言模型的全面基准,助力计算机科学掌握
    PDF4 days ago
  • 大型语言模型是良好的统计学家吗?
    PDF4 days ago
  • LaMOT: 语言引导的多目标跟踪
    PDF4 days ago
  • MMWorld: 视频中多学科多方面世界模型评估之路
    PDF4 days ago
  • VulDetectBench:利用大型语言模型评估漏洞检测的深度能力
    PDF5 days ago
  • CTIBench:用于评估网络威胁情报中 LLMs 的基准测试
    PDF5 days ago
  • 多模态大型语言模型可信度评估:一项全面研究
    PDF5 days ago
  • AudioMarkBench: 音频水印鲁棒性基准测试
    PDF5 days ago
  • 针对 3D 高分辨率医学图像的放射学报告生成的基准和提升
    PDF5 days ago
  • HalluDial: 自动对话层次的大规模幻觉评估基准
    PDF5 days ago
  • 矿工:多语言语言模型作为语义检索器
    PDF5 days ago
  • EmoBox: 跨语言多语料库语音情感识别工具箱与基准
    PDF5 days ago
  • DCA-Bench: 数据集整理代理的基准测试
    PDF5 days ago
  • 多模态编辑中的关键问题
    PDF5 days ago
  • LLM 生成的代码的效率如何?一个严格和高标准的基准测试
    PDF6 days ago
Prev