关键词evaluation benchmark
搜索结果 - 58
- BioKGBench:生物医学科学 AI 代理的知识图检测基准PDF5 days ago
- MALSIGHT:迭代二进制恶意软件摘要分析研究PDF8 days ago
- SHIELD:LLM 文本生成中版权合规的评估与防御策略PDF16 days ago
- IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准PDF16 days ago
- VideoVista: 视频理解和推理的通用基准测试PDF17 days ago
- 什么是最好的模型?用于大型语言模型的应用驱动评估PDF20 days ago
- 通用到医疗应用的大型语言模型调查:数据集、方法论和评估PDF20 days ago
- MM常识 T2I 挑战:文本到图像生成模型能否理解常识?PDF23 days ago
- ICLRLean4 中自动形式化的评估基准PDFa month ago
- 生成预训练大语言模型对孟加拉语语法错误的解释程度如何?PDFa month ago
- 遥感图像的组合检索PDFa month ago
- ACLFREB-TQA:用于表格问答的细粒度鲁棒性评估基准PDF2 months ago
- GPT-4V 挑战红队测试:是否能抵御 Uni/Multi-Modal 越狱攻击?PDF3 months ago
- COLING最小人工投入快速开发大型语言模型的高质量指导数据和评估基准:以日语为例的案例研究PDF4 months ago
- DiaHalu: 大型自然语言模型的对话级幻觉评估基准PDF4 months ago
- 大型视觉语言模型的图像推理与描述的认知评估基准PDF4 months ago
- 科学摘要评估的反思:在面向因素的基准上建立可解释指标PDF4 months ago
- BiMediX: 双语医学专家混合模型 LLMPDF4 months ago
- FinBen: 大型语言模型的全面金融基准PDF4 months ago
- TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象PDF4 months ago
Prev