关键词llm evaluation
搜索结果 - 21
  • 推理时去污:重复使用泄露的基准测试用于大型语言模型评估
    PDF13 days ago
  • BeHonest:大型语言模型诚实度基准测试
    PDF14 days ago
  • 同时评估 LLMs 中的多个问题:评估 LLM 能力的新范式
    PDF17 days ago
  • TCMD:一个用于评估大型语言模型的中医问答数据集
    PDFa month ago
  • 大型语言模型的基准数据污染:调查
    PDFa month ago
  • 从 LLM 基准混合中获得群体智慧的 MixEval
    PDFa month ago
  • PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量
    PDFa month ago
  • ACL语言模型可以通过概率差异进行自我评估
    PDF2 months ago
  • COGNET-MD,医学领域中大型语言模型基准的评估框架和数据集
    PDF2 months ago
  • 揭示以度量为重点的 LLM 评估:挑战与解决方案
    PDF3 months ago
  • E-EVAL:大型语言模型的全面中国 K-12 教育评估基准
    PDF5 months ago
  • 评估基于 LLM 生成的医学图像和症状分析的多模态诊断
    PDF5 months ago
  • ArcMMLU:大型语言模型的图书馆与信息科学基准
    PDF7 months ago
  • LLM 知识弃除:任务、方法与挑战
    PDF7 months ago
  • 融合评估器与 LLMs:Fusion-Eval
    PDF8 months ago
  • MEGAVERSE:跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试
    PDF8 months ago
  • 使用大型语言模型回答农业考试:GPT-4 作为农艺师助手?
    PDF9 months ago
  • EMNLP大规模语言模型在自动评估中的深入研究
    PDF9 months ago
  • LawBench:大型语言模型法律知识基准评估
    PDF9 months ago
  • Do-Not-Answer: 评估 LLMs 中的保障措施的数据集
    PDF10 months ago
Prev