关键词llm evaluation
搜索结果 - 21
- 推理时去污:重复使用泄露的基准测试用于大型语言模型评估PDF13 days ago
- BeHonest:大型语言模型诚实度基准测试PDF14 days ago
- 同时评估 LLMs 中的多个问题:评估 LLM 能力的新范式PDF17 days ago
- TCMD:一个用于评估大型语言模型的中医问答数据集PDFa month ago
- 大型语言模型的基准数据污染:调查PDFa month ago
- 从 LLM 基准混合中获得群体智慧的 MixEvalPDFa month ago
- PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量PDFa month ago
- ACL语言模型可以通过概率差异进行自我评估PDF2 months ago
- COGNET-MD,医学领域中大型语言模型基准的评估框架和数据集PDF2 months ago
- 揭示以度量为重点的 LLM 评估:挑战与解决方案PDF3 months ago
- E-EVAL:大型语言模型的全面中国 K-12 教育评估基准PDF5 months ago
- 评估基于 LLM 生成的医学图像和症状分析的多模态诊断PDF5 months ago
- ArcMMLU:大型语言模型的图书馆与信息科学基准PDF7 months ago
- LLM 知识弃除:任务、方法与挑战PDF7 months ago
- 融合评估器与 LLMs:Fusion-EvalPDF8 months ago
- MEGAVERSE:跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试PDF8 months ago
- 使用大型语言模型回答农业考试:GPT-4 作为农艺师助手?PDF9 months ago
- EMNLP大规模语言模型在自动评估中的深入研究PDF9 months ago
- LawBench:大型语言模型法律知识基准评估PDF9 months ago
- Do-Not-Answer: 评估 LLMs 中的保障措施的数据集PDF10 months ago
Prev